当前位置：首页 > 洗衣机 > 文章正文

清华教授邓志东：大年夜模型评测能不能也建个L0-L5分级？

编辑：[db:作者] 时间：2024-08-24 23:42:44

两周前，Reddit上一个爆料GPT-4.5的帖子火了，个中提到GPT-4.5将具备更强的多模态能力，文本、语音、图片以及视频都能一并处理，还具备繁芜的推理以及跨模态理解能力。

一出，网友就热闹起来了，有好事者去Sam Altman的帖子下讯问GPT-4.5是否透露，得到了一个轻飘飘的“nah”。

网友们又转去问ChatGPT，结果还真问出了一个模型说自己是4.5版本的回答。
不过很快OpenAI的员工回应，这是大模型产生了幻觉。
随后ChatGPT官方账号发推，配了“脑”和“雾”的表情，大概是委婉地承认大模型幻觉问题。

大模型的幻象迷航

大模型幻觉，普通地说便是不苟言笑的胡说八道，看似很有道理，实在是在骗你。
在过去这一年，大模型赛道风起云涌，无数国内外科技巨子、AI创业公司涌入，形成了“千模大战”的盛景，与此同时，幻觉征象频出，并且由于大模型的强大，天生的幻觉有时看上去非常合理，难以分辨，已经成为大模型产品落地的拦路虎。

清华大学打算机系长聘教授、清华大学人工智能研究院视觉智能研究中央主任邓志东在接管至顶科技采访时表示，大模型幻觉，可以分为事实性幻觉和高下文不一致幻觉，前者是大模型天生的内容不符合知识，乃至涌现了捏造或者杜撰。
后者则是大模型天生的回答或下文与用户上文的指令不一致，也便是答非所问，驴唇不对马嘴。

事实性幻觉是目前大模型幻觉研究的热点，这一类幻觉对用户的影响更大，还可能产生安全问题。
例如，大模型在天生医疗建议时可能会捏造缺点的药品剂量，在具身智能中可能会带来时空错乱，这些都会给用户带来安全风险。
但是，幻觉问题是客不雅观存在的，它的成因涉及到数据、模型构造、预演习、微调乃至推理各个部分。

从演习数据的角度来看，由于互联网上的信息是非均衡的，有的数据特殊丰富，有的数据很少乃至缺失落，也可能存在偏见或根本是缺点信息，还有些数据的时效性不足等。
大模型通过互联网采集的数据较随意马虎涌现这类毛病。

从演习本身来看，主流的大模型是自回归天生式模型，没有纠错机制，也便是说前面发生的缺点会通报到后面，导致错上加错，像滚雪球一样。
此外，如果问题超出了大模型的知识边界，也可能由于大模型的对齐策略产生幻觉。

有什么方法能缓解这种幻觉？邓志东从四个层面进行理解说。

一是提高演习数据的质量。
在预演习和微调阶段通过数据洗濯减少偏见，增加多元性和均衡性。
例如，针对不同质量的预演习样本集采取打分加权，给高质量数据集，比如程序代码、专业论文和正式出版的书本以更高的权重。
而对付网页上抓取的信息，通过大量洗濯，筛除其缺点和冗余数据，这方面特殊须要韶光和资源的投入。

二是知识增强。
利用外部工具检索，跟知识性知识源进行比拟。
对付专用模型，则可增加更多的专业知识库喂养。
还可以借助于数字孪生，将数字孪生系统与大模型结合起来进行交叉验证，帮助其肃清幻觉。

三是增强同等性。
包括逻辑同等性、知识同等性，通过同等性来判断是否涌现了幻觉，尤其是对高下文不一致的幻觉，有较好的效果。

末了是给大模型增加电子水印。
未来互联网上AI天生的内容会越来越多，乃至超过人类产生的数据。
清楚数据来源就显得很主要，我们要知道它是由人类产生的，还是由AI大模型产生的，详细是哪个大模型，加水印是比较大略的一个低本钱鉴别方法。

其余，幻觉问题也与用户如何跟模型交相互干。
若奥妙地提问，采取一步一步拆解的策略，通过思维链办法将一个繁芜问题分解为多个子问题，或者将一个大任务拆解成多少子任务，也能缓解幻觉问题。

揭秘大模型评测机制

如今，大模型之争是全体科技界的焦点。
市场上不乏声称自己产品超越GPT-3.5，乃至对标GPT-4的团队，在各个榜单上刷脸。
如何客不雅观评测大模型能力成为一个"大众和业界共同关注的议题。

最近，由工信部中国电子技能标准化研究院发起的海内首个官方“大模型标准符合性评测”结果揭晓，有四家大模型通过了这一评测：360智脑、百度文心一言、腾讯混元、阿里云通义千问，这也标志着大模型的官方认证进程已经开启。

邓志东表示，只管业界已形成多个评测基准，如NLP领域的MMLU、BIG-Bench、C-Eval、GSM8K等，但大模型的跨领域特性使得每个细分领域都有其独特的评测指标，例如在打算机视觉领域中的视觉目标检测常日利用mAP进行评测，图像与视频分类任务则用准确率、召回率等指标进行性能评估。
总体上，目前还没有形成完全统一的跨领域多任务的评测体系，很多厂商因此钻了空子，仅展示自己表现最好的方面。

大模型评测，须要构建一个统一、客不雅观的第三方评测机构，不能由企业或者研究机构自说自话。
邓志东认为，评测体系的培植应遵照定性与定量相结合、评测大模型与人类专家相结合的原则，既有客不雅观又有主不雅观。
评测体系可以分为安全性、准确性、呈现能力和泛化能力四个维度，综合评估大模型在各项任务中的表现。
评测模式包括做题打分、模型间PK，还包括对模型各项单一能力的评估等。

他进一步提出了一个想法，类似于自动驾驶技能的L0-L5分级，大模型评测体系是否也可以采取这样划分？在这种框架下，L0至L2级可能代表的是大模型的根本感知与天生能力，而L3级及以上则标志着模型具备更高等的理解认知与多模态天生能力，从低级认知到中级认知，L5级则是宽度靠近乃至超越人类的高等认知能力。

从发展路径上看，人工智能可分成弱人工智能-通用人工智能-强人工智能-超级人工智能这几个蜕变阶段。
我们现在正处于通用人工智能的早期阶段，当它的认知能力与完成繁芜任务的宽度和人类差不多，便是强人工智能时期到了。

在这一大尺度发展路径上，既有巨子企业推动的根本、基座通用大模型，也有针对垂域或特定运用处景的专用模型。
毕竟大模型的代价在于实际运用和产品落地，这样才能形成一个可持续发展的商业闭环，因此更多初创企业应转向垂域专用模型的家当落地。
在这一过程中，中国在商业模式构建、运用落地速率以及运用处景多样性上的上风可能也会表示出来，以此重修我们在AI大模型时期的新上风。

从单模态到多模态，从大略任务实行到繁芜的认知功能，比如智能呈现，零样本泛化等，通用人工智能这一年的发展超出了很多人的预期。
在大模型不断蜕变过程中，完善的评测体系和标准构建尤为主要，这不仅仅是技能的竞合，更意味着话语权，和对未来行业趋势的引领。

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除，如需转载请保留原文地址：http://www.baanla.com/xyj/31181.html

上一篇：网购电子产品的靠谱平台

下一篇：返回列表

清华教授邓志东：大年夜模型评测能不能也建个L0-L5分级？

相关文章

推荐标签

洗衣机推荐

洗衣机热门