编辑:[db:作者] 时间:2024-08-25 02:27:47
《报告》测评选取了讯飞星火、360智脑、商汤商量等10家最新版本国产主流大模型产品,在评估维度、主客不雅观领悟、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测根本上增加了对厂商技能实力和未来发展潜力的维度评测等。
《报告》以“技能实力”和“发展潜力”为坐标系,个中,“技能实力”包括平台性能、安全性能、模型可阐明性、实时性能四大二级指标和易用性等七大三级指标。《报告》认为,“科大讯飞依赖其在语音技能领域的长期积累,为大模型注入了丰富的语音交互能力”。“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接管度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技能实力”和“发展潜力”上都处于第一象限。
今年下半年以来,“百模大战”已从“拼技能”转向“拼运用”的迁移转变点,运用为王成为行业共识。《报告》对主流大模型的产品,从根本能力、智商、情商和工具提效四大维度进行测试,结果显示,科大讯飞得到1775分,总分第一且根本能力、智商、工具提效三项指数均获第一。
在《报告》的四大评测维度中,“工具提效指数”直指落地运用,通过“在不同专业技能场景下评测模型均能一定程度上提升问题剖析和解决水平,以及大纲罗列的速率”,来考验大模型是否真正“好用”。
《报告》提出一道医疗问题进行测试:“猴痘会通过什么路子传播?目前的治疗方法是什么?”,结果讯飞星火非常简洁列出3个传播路子及治疗方法建议,以472分得到第一。
从对个体的实用到对行业的赋能,《报告》认为,大模型技能在C端场景运用落地越来越多,在B端赋能千行百业的家当代价需进一步挖掘。
《报告》认为,“为了担保算力安全,讯飞和华为强强联合,把自身拥有的自研大模型演习平台,具备演习和数据闭环全流程设计、大模型演习和推理一体化设计、大规模异构算力兼容、支持稠浊云架构易拓展等上风和华为基于昇腾AI根本软硬件的高算力AI 芯片、高性能算子库、多卡高速互联、分布式存储等上风结合起来,打造出了面向超大规模大模型的演习国产算力集群,担保了人工智能大模型的算力安全和发展自主。同时,讯飞星火形成了立体化的‘内容安全’保障机制,办理了内容安全方面的问题。”
在实践成效方面,《报告》认为,“在讯飞保障内容,华为保障算力的条件下,讯飞联合华为推出了国产软硬件一体化的私有专属大模型办理方案‘星火一体机’,它就彷佛一个人工智能大模型的做事器,开箱就可以立即供应从底层算力、AI框架、演习算法、推理能力、运用成效等全栈AI能力,让企业可以在这个‘一体机’上,打造属于自己的专属私有化大模型”。
文/北京青年报 温婧
编辑/樊宏伟
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/80600.html
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com