|
本帖最后由 Reader86 于 2024-9-4 12:32 AM 编辑
最新研究警告称,人工智能(AI)系统可能会逐渐让互联网充斥着难以理解的无意义内容。
GPT-4或Claude 3 Opus等人工智能模型依赖互联网上的数万亿词汇数据来变得更智能,但随着它们自己生产的输出内容越来越占据互联网,它们可能会陷入自我破坏的反馈循环。
研究这一现象的研究团队将这种最终结果称为“模型崩溃”,如果不加以控制,互联网上可能会充斥着难以理解的胡言乱语。他们在7月24日的《自然》杂志上发表了这项研究结果。
“想象一下,先拍一张照片,然后把它打印出来,然后不断重复这个过程。在这个过程中,扫描仪和打印机会引入各种错误,最终导致图像失真,”该研究的主要作者、牛津大学计算机科学家lla Shumaloy说,“类似的事情也发生在机器学习中——它们在学习其它模型时也吸收了错误,并加入自己的错误。逐渐降低模型的实用性。”
目前,人工智能系统使用从人类输入的数据进行训练,学习从神经网络中提取概率模式。以GPT-3.5为例,它在训练时使用了大约570千兆字节的文本数据,来源包括Common Crawl中的书籍、在线文章、百科类网站和其他网页,总计约3000亿个单词。
但人类生成的数据是有限的,很可能在十年内耗尽,一旦这种情况发生,替代方案将是开始从用户那里收集私人数据,或者将人工智能生成的“合成”数据再度反馈给模型。
为了探讨训练人工智能模型用自身输出数据进行训练的最坏结果,Shumallov和他的同事们利用百科类网站的人类输入数据训练了一个大型语言模型(LLM),然后将模型生成的输出反复输入模型,进行了九次迭代。研究人员为模型每次迭代的输出分配了一个“困惑度得分”,用以衡量其荒谬程度。
随着迭代过程中自我制作内容的积累,研究人员观察到模型反应已退化为混乱的胡言乱语。以如下提示为例,McCel被要求生成下一个句子:
“根据波因茨·怀特的说法,一些在1360年之前的建筑通常是由一个主要建筑师和一个流动泥瓦匠团队完成的,当地教区的工匠也参与其中。但其他研究者反对这种模式,他们认为主要建筑师是根据早期的垂直设计来设计教区教堂塔楼的。”
到了第九次、也就是最后一次迭代,人工智能的回应是:“建筑。除了拥有世界上最大的黑尾兔、白尾兔、蓝尾兔、红尾兔、黄尾兔外,……” 这种胡言乱语反映了模型在不断采样自身输出后,出现了过度拟合和充满噪音的响应。
研究团队认为,目前人类生成的数据存备仍然足够庞大,现有的人工智能模型不会在一夜之间崩溃。但为了避免未来出现这种情况,人工智能开发人员将需要更加小心地减少他们选择输入系统的内容。这并不意味着完全放弃合成数据,但若要让基于合成数据的模型能够正常工作,就需要对合成数据进行更好的设计。
Shumaloy补充道:“未来充满不确定性,但显而易见的是,模型的训练方式必须改变。如果你能保存一份由人类生成的互联网副本,你将更有可能训练出具备通用能力的模型。我们需要在构建模型时格外小心,并确保它们不断改进。” |
|