当前位置:首页 > 家装 > 装修报价 > 文章正文

大年夜模型评测榜单宣告:GPT-4第一智谱、阿里、百度产品跻身前五

编辑:[db:作者] 时间:2024-08-25 06:19:36

去年7月发布以来,“司南”(OpenCompass)在学术界和家当界引起了广泛关注,很快成为环球领先的大模型能力评测体系。
Meta公司的Llama大模型研发团队将其作为官方推举的能力评测工具之一,这也是唯一由中国机构开拓的评测工具。
阿里巴巴、腾讯、百度等公司也在其大模型研发和运用中利用了“司南”。

大年夜模型评测榜单宣告:GPT-4第一智谱、阿里、百度产品跻身前五

OpenCompass2.0中英双语客不雅观评测前十名(采取百分制;商用闭源模型通过API形式测试,开源模型直接在模型权重上测试)

“大模型评测的最大意义并不在于榜单名次,而是通过评测结果来辅导改进事情。
”上海人工智能实验室领军科学家林达华教授说,“一些大模型研发机构通过‘题海战术’来提高评测成绩,导致成绩无法真实反响大模型的实际能力。
让模型处于这种‘高分低能’状态,终极侵害的还是研发机构本身。

为了更真实、全面地反响大模型的实际能力,“司南”评测体系近日升级为OpenCompass2.0,包含支撑大模型评测的“铁三角”——威信评测榜单CompassRank、高质量评测基准社区CompassHub和评测工具链体系CompassKit。
这个评测体系布局了一套高质量的中英文双语评测基准,涵盖措辞与理解、知识与逻辑推理、数学打算与运用、多编程措辞代码能力、智能体、创作与对话等多个方面。
它还创新了多项能力评测方法,能够对模型的真实能力进行全面诊断。

支撑大模型评测的“铁三角”

总体而言,“司南”评测结果显示:繁芜推理干系能力是大模型普遍面临的难题,海内大模型与GPT-4比较还存在差距;中文场景下,海内最新的大模型已展现出独特上风,在部分维度上靠近GPT-4 Turbo的水平;开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

评测结果还显示:大措辞模型的整体能力还有较大提升空间。
在百分制的客不雅观评测基准中,GPT-4 Turbo也只达到61.8分这一及格水平,解释繁芜推理仍旧是大模型面临的主要难题,须要进一步的技能创新来占领。

在综合性评测中,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言 4.0也取得了不错的成绩,反响出这些模型具有较为均衡和全面的性能。
它们在措辞和知识等根本能力维度上,能比肩GPT-4 Turbo。
但在繁芜推理、可靠办理繁芜问题等方面,海内大模型与GPT-4 Turbo等国际顶尖大模型比较,还有一定差距。

OpenCompass年度榜单(客不雅观测评,百分制)

对一些开源模型的评测显示,它们与API(运用程序编程接口)模型比较,在客不雅观性能和主不雅观性能方面存在差距。
这解释开源社区不仅须要提升客不雅观性能、夯实能力根本,更须要在人类偏好对齐高下功夫。
合理科学地利用评测基准,对模型能力进行细致比拟和剖析,是研发机构不断提升模型能力的不二法门。

比较于中英文双语客不雅观评测,中文主不雅观评测的海内大模型表现更好。
不少海内企业近期发布的模型在多个能力维度上,大幅缩小了与GPT-4 Turbo的差距。
阿里巴巴Qwen-Max、智谱清言 GLM-4、百度文心4.0都取得了精良成绩。
在中文措辞理解、中文知识和中文创作上,一些海内商业模型已具有很强的国际竞争力,乃至在部分维度上实现了对GPT-4 Turbo的超越。

司南OpenCompass评测体系官网:https://opencompass.org.cn/

GitHub主页:https://github.com/open-compass/OpenCompass/

栏目主编:黄海华

来源:作者:俞陶然

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxbj/154005.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com