编辑:[db:作者] 时间:2024-08-25 03:59:59
一项最新研究发出警告
最快到2026年
人工智能(AI)系统就可能
用完互联网上所有免费知识
难道
AI模型要受饿了?
AI模型的数据“饕餮盛宴”
AI模型的发展
离不开大量数据
从图像识别到自然措辞处理
从自动驾驶到医疗诊断
每一个成功的AI运用背后
都有着海量数据的支撑
研究团队创造
ChatGPT利用了
来自书本、网络文章、维基百科
及其他网络资源
约570GB、3000亿个单词的文本数据
进行演习
随着AI模型的不断进步
其对数据的需求也在增加
如果演习AI算法的数据
不敷或质量较低
就可能产生低质量结果
例如
美国谷歌公司的“双子座”AI
曾建议网友吃石头
或者给披萨涂胶水
网络公开数据的“有限供给”
虽然网络公开数据的规模
在不断扩大
但与AI模型的需求比较
仍旧显得捉襟见肘
研究团队利用谷歌网页索引
打算出目前的网页总数
约为2500亿个
个中每个页面
包含约7000字节文本
根据最新预测
AI模型将在2026年至2032年间
用完所有网络公开数据
图像数据也估量
将在2030年至2060年耗尽
随着AI技能的深入发展
对付数据的质量和多样性哀求
也越来越高
这无疑加剧了数据的供需抵牾
数据资源的短缺
可能会限定AI模型的演习和优化
美国人工智能时期研究所
研究员巴勃罗比利亚洛沃斯认为
如果谈天机器人耗尽所有可用数据
而数据效率没有进一步提升
估量该领域的发展将陷入相对结束
如何应对数据“饥荒”?
前几天
《时期》杂志与OpenAI宣告
两家公司达成了一项为期多年的
内容协议和计策互助伙伴关系
该协议许可OpenAI
将《时期》杂志内容引入ChatGPT
并帮助演习其最前辈的人工智能模型
据先容
OpenAI可以通过这笔交易
访问《时期》过去100多年的
档案和文章
与此同时
OpenAI还在与数十家出版商
洽谈内容授权协议
从私人数据库中获取数据
正成为AI科技公司办理
数据“饥荒”的方向
比利亚洛沃斯认为
如果干系方法成功落地
并且私人数据
与公共网络数据一样有用
那么紧张AI企业
有望在2030年以前
保持足够多的数据量
不过
有业内人士警告
如果有企业
试图在未经容许的情形下
获取知识产权或者私人信息
可能会面临法律风险
撰文:李飞、刘鑫坤排版:李汶键统筹:李政葳
参考丨参考网、经济参考报、财联社、逐日经济新闻、中国经济网、中国发展网
光明网出品
来源: 天下互联网大会
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rsq/110583.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com