当前位置:首页 > 热水器 > 文章正文

AI 措辞模型已经没有人类编写的文本可供进修了

编辑:[db:作者] 时间:2024-08-25 06:56:39

像 ChatGPT 这样的人工智能系统可能很快就会耗尽使它们变得更聪明的东西——人们在网上编写和分享的数十万亿字。
研究机构Epoch AI周四发布的一项新研究估量,科技公司将在大约十年之交(2026年至2032年之间的某个时候)耗尽人工智能措辞模型的公开演习数据。

AI 措辞模型已经没有人类编写的文本可供进修了

该研究的作者塔梅贝西罗格鲁(Tamay Besiroglu)将其比作耗尽有限自然资源的“字面淘金热”,他表示,一旦人工智能领域耗尽了人类天生的写作储备,在保持目前的进步速率方面可能会面临寻衅。

在短期内,ChatGPT 制造商 OpenAI 和谷歌等科技公司正在竞相得到高质量的数据源,有时乃至支付用度来演习他们的 AI 大型措辞模型——例如,通过签署协议来利用来自 Reddit 论坛和新闻媒体的源源不断的句子。
从长远来看,将没有足够的新博客、新闻文章和社交媒体评论来坚持目前人工智能的发展轨迹,这给公司带来了压力,哀求他们利用现在被认为是私人的敏感数据——比如电子邮件或短信——或者依赖谈天机器人自己吐出的不太可靠的“合成数据”。

“这里有一个严重的瓶颈,”Besiroglu说。
“如果你开始碰着关于你拥有多少数据的限定,那么你就不能再有效地扩展你的模型了。
扩大模型规模可能是扩展其能力和提高输出质量的最主要办法。

附图表显示了多年来演习不同 AI 大型措辞模型的单词数量。

像 ChatGPT 这样的人工智能系统正在花费越来越多的人类作品,他们须要这些作品才能变得更聪明。

两年前,也便是ChatGPT首次亮相前不久,研究职员在一篇事情论文中首次做出了预测,该论文预测高质量文本数据的截止韶光将更加迫不及待。
从那时起,很多事情都发生了变革,包括新技能,使人工智能研究职员能够更好地利用他们已经拥有的数据,有时还会多次对同一来源进行“过度演习”。
但也有局限性,经由进一步的研究,Epoch 现在估量在未来两到八年的某个时候,公共文本数据将耗尽。

该团队的最新研究已经由同行评审,并将于今年夏天在奥地利维也纳举行的机器学习国际会议上揭橥。
Epoch 是一家非营利性机构,由总部位于旧金山的 Rethink Priority 主理,并由有效利他主义的支持者帮助——这是一项慈善运动,致力于降落 AI 的最坏风险。

Besiroglu说,人工智能研究职员在十多年前就意识到,积极扩展两个关键要素——打算能力和大量的互联网数据存储——可以显著提高人工智能系统的性能。
根据 Epoch 的研究,输入 AI 措辞模型的文本数据量每年增长约 2.5 倍,而打算量每年增长约 4 倍。
Facebook 母公司 Meta Platforms 最近声称,他们即将推出的 Llama 3 模型的最大版本(尚未发布)已经在多达 15 万亿个token上进行了演习,每个token可以代表一个单词。

但是,担心数据瓶颈的程度值得商榷。

“我认为主要的是要记住,我们不一定须要演习越来越大的模型,”多伦多大学打算机工程助理教授、非营利性Vector人工智能研究所研究员尼古拉斯帕普诺(Nicolas Papernot)说。
没有参与Epoch研究的Papernot表示,构建更闇练的AI系统也可以来自更专门针对特界说务的演习模型。
但他担心在天生式人工智能系统产生的相同输出上演习天生式人工智能系统,这会导致性能低落,称为“模型崩溃”。
"model collapse."

对人工智能天生的数据进行演习“就像你复印一张纸,然后复印复印件时会发生什么。
你会失落去一些信息,“Papernot说。
不仅如此,Papernot的研究还创造,它可以进一步编码已经融入信息生态系统的缺点、偏见和不公正。
如果真正的人工制作的句子仍旧是一个关键的人工智能数据源,那么那些最抢手的宝库——Reddit和维基百科等网站,以及新闻和图书出版商——的管理者们就被迫负责思考它们是如何被利用的。
“大概你不会从每座山的山顶上掉下来,”运营维基百科的维基媒体基金会首席产品和技能官赛琳娜德克尔曼(Selena Deckelmann)开玩笑说。
“现在这是一个有趣的问题,我们正在就人类创造的数据进行自然资源对话。
我不应该嘲笑它,但我确实以为它有点神奇。

虽然有些人试图将他们的数据从人工智能演习中剔除——常日是在数据已经被无偿获取之后——但维基百科对人工智能公司如何利用其志愿者撰写的条款险些没有限定。
只管如此,德克尔曼表示,她希望连续有勉励方法让人们连续做出贡献,尤其是在大量廉价和自动天生的“垃圾内容”开始污染互联网的情形下。
她说,人工智能公司该当“关注人类天生的内容如何连续存在并连续可访问”。

从人工智能开拓职员的角度来看,Epoch的研究表明,支付数百万人来天生人工智能模型所需的文本“不太可能是一种经济的办法”,以推动更好的技能性能。
随着 OpenAI 开始演习下一代 GPT 大型措辞模型,首席实行官 Sam Altman 上个月在联合国的一次活动中见告不雅观众,该公司已经考试测验“天生大量合成数据”进行演习。
“我认为你须要的是高质量的数据。
有低质量的合成数据。
人类数据质量低下,“阿尔特曼说。
但他也对过于依赖合成数据而不是其他技能方法来改进人工智能模型表示保留。
“如果演习模型的最佳方法是天生万亿个合成数据并将其反馈回去,那就太奇怪了,”Altman说。
“不知何故,这彷佛效率低下。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/166170.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com