编辑:[db:作者] 时间:2024-08-24 23:22:29
科大讯飞董事长刘庆峰表示,讯飞星火 V3.5 整体已经靠近 GPT-4 水平;其在数学、措辞理解、语音交互能力超过 GPT-4Turbo。代码能力方面达到了 GPT-4 Turbo 的 96%,多模态理解能力也达到了 GPT-4V 的 91%。
此外,科大讯飞还首次发布了星火语音大模型,主流语种环球领先,引领万物互联时期的人机交互革命。同时星火开源大模型“星火开源-13B”也首次发布,深度适配国产算力,助力开拓者、高校、企业自主研发。
那么最新的讯飞星火 V3.5 版本实际利用到底如何呢?本日IT之家就和大家一起体验一番。
1、AIGC 核心能力体验对付大模型来说,最关键的自然是 AIGC 核心对话能力了,以是我们就先紧张从这些能力来测试。
测试时,
话不多说,下面我们就开始吧。
1、全语音交互本次发布会,最让
目前全语音对话可以在 App 端体验,升级之后,在底部输入框的最右侧多了一个机器助手的图标,点击即可进入全语音交互状态。测试时,IT之家设计了一段对话,分别和讯飞星火 V3.5 与 GPT-4 互换,大家可通过下面这个视频来感想熏染:
从视频中可以看到,讯飞星火 V3.5 的全语音交各别常流畅,首先 AI 的声音很自然,说话时乃至还带有“嗯”、“内个”等语气词,险些就和真人没什么分别。其次,在交互时,讯飞星火 V3.5 的相应速率也很快,
GPT-4 方面,须要解释的是,由于利用时网络连接不稳定的客不雅观缘故原由,对话过程中会频繁涌现重连、等待韶光长的情形,抛开这一点,GPT-4 的语音对话也是比较不错的,声音同样自然流畅犹如真人。
讯飞星火 V3.5 的全语音交互目前有聆小玥(女声)和聆飞逸(男生)两个音色可切换,下面
从视频上可以看到,讯飞星火 V3.5 在对话和互换中有时候还会主动发问,让谈天连续下去,这会更加让人绝对不像是和 AI 对话而是在和真人,当然,这一点 GPT-4 也具备。同时这次对话中,
GPT-4 这边,实在效果也和讯飞星火 V3.5 差不多,
统统不幸命运的救赎之路在哪里呢? 设若聪慧的悟性可以引领我们去找到救赎之路,难道所有的人都能够得到这样的聪慧和悟性吗? 我常以为是丑女造就了美人。我常以为是愚氓举出了智者。我常以为是懦夫衬照了英雄。我常以为是众生度化了佛祖。
讯飞星火 V3.5 和 GPT-4 分别给出了如下理解:
从回答来看,讯飞星火 V3.5 和 GPT-4 给出的理解都是合格的,但整体来说,GPT-4 的理解和表达要更准确更细致一些。
下面IT之家提高一些难度,让它们剖析下面这幅暗带讽刺意味的对联:
墙上芦苇,头重脚轻根底浅;山间竹笋,嘴尖皮厚腹中空。
讯飞星火 V3.5 和 GPT-4 给出的回答都可以打满分:
然后
公司早上 09:00 点上班,我恰好在 09:00 踩着点来到公司打了卡,恰好碰到了老板,老板看到我。说:“亲爱的王师长西席,你可真是定时啊,咱们公司有你这么定时的员工,古迹可不蹭蹭蹭地上涨?”叨教老板这句话是什么意思?
对付这道题,讯飞星火 V3.5 理解地不对,没有 get 到老板话语中的讽刺:
相对来说,GPT-4 的回答更好,理解出了老板话里的讽刺。
再换一句阴阳怪气的话:
真倾慕你的皮肤,保养得这么厚。
对付这句话的理解,这次讯飞星火 V3.5 准确把握到了个中的挖苦和讽刺:
GPT-4 虽然也识别出这里面有挖苦的意思,但详细在讽刺什么,它给出了缺点的理解:
经由测试,讯飞星火 V3.5 和 GPT-4 在中文措辞理解能力上互有胜负,整体可以说在一个水平上,措辞背后隐蔽的意思大部分也能识别出来,理解能力还是能让人满意的。
3、逻辑推理接着磨练讯飞星火 V3.5 版本和 GPT-4 的逻辑推理能力,
假设有一个池塘,里面有无穷多的水,现有两个空水壶,容积分别是 5 升与 6 升。问如何用这两个水壶从池塘里取得 3 升的水?
对付这个问题讯飞星火 V3.5 的回答步骤清晰,逻辑清楚,实际可操作性也没有问题。
GPT-4 方面,对付这个问题的回答,虽然也一条条列了步骤,但是按照它给的方法,并不能得到 3 升水。
接着
A、B、C、 D 四人进行象棋比赛,每两人都要赛一场,结果 A 胜了 D,并且 A、B、 C 三人胜的场数相同。问 D 胜了几场?
对付这个问题,讯飞星火 V3.5 和 GPT-4 虽然解题思路有所不同,但都给出了精确的答案:
接着还有一个问题:
四年级有三个班,每班有两个班长,开班会时,每次每班只要一个班长参加。第一次到会的有 A,B,C;第二次到会的有 B,D,E;第三次到会的有 A,E,F。叨教哪两位班长是同班的?
这个问题,讯飞星火 V3.5 给出了精确且完全的回答:
GPT-4 也给出了精确的答案,并且思路也很清晰。
谈到逻辑思维,还有一些类似脑筋急转弯的题目,也很能磨练大模型的思维反应能力,比如下面这个问题:
如果 1=7,2=17,3=27,4=37,5=47,6=57 那么 7=?
这个问题,讯飞星火 V3.5 和 GPT-4 都没能识别题目中的迷惑条件,从而给出了缺点的回答:
再来一个有思维陷井的题目:
你参加赛跑,当你超过了第 2 名后,你是第几名?
这个问题讯飞星火 V3.5 和 GPT-4 都成功避坑,没有回答“第一名”而是答出“成为新的第二名”。
总体来说,在逻辑思维能力方面,讯飞星火 V3.5 和 GPT-4 都展现了很不错的逻辑推理和避坑能力,个中讯飞星火 V3.5 在第一题中还小胜了一下。
4、数学答题前面我们测试过两款大模型的逻辑推理能力,与之相似的实在还有数学答题的能力,可以更进一步检测大模型的“智商水平”。
先看下面这道题:
在 △ ABC 中,a,b,c 分别为内角 A,B,C 所对的边,若 2asinA=(2sinB+sinC) b+(2sinC+sinB) c。
(1)求 A 的大小;
(2)求 sinB+sinC 的最大值。
讯飞星火 V3.5 答对了第一个小问,但是第二个小问答错了,最大值该当是 1.
GPT-4 这边,两个小问都没有成功给出答案。
接着
某中学对女生立定跳远项目的考察哀求为:1.33 米得 5 分,每增加 0.03 米,分值增加 5 分,直到 1.84 米得 90 分后,每增加 0.1 米,分值增加 5 分,满分为 120 分,若某女生演习前的成绩为 70 分,经由一段韶光的演习后,成绩为 105 分,则该女生经由演习后跳远增加了多少米?
讯飞星火 V3.5 给出了精确答案,同时也给出理解题过程:
GPT-4 这边一开始只给出了精确答案,
末了再试一道稍难一些的题:
已知函数 f (x)=e^x-ax-1,g (x)=kx^2,当 a>0 时,求 f (x) 的值域。
对付这个题,讯飞星火 V3.5 给出了精确答案,解题过程虽然大略,但思路还是比较清晰的。
GPT-4 这边,给出了一个比较长的解题步骤,但结果是错的。
上面举例的三道题都是从高三某数学仿照测试中找到的,可见讯飞星火 V3.5 的数学能力目前至少已经达到了高中水平,实际利用过程中,也确实能创造,讯飞星火 V3.5 在解数学题方面还是要比 GPT-4 好一些的。但整体来说,两者都还有进步的空间。
5、文本天生文本天生可能是大家利用大模型最常用的功能,用来赞助我们进行一些文案创作。这里
首先
招聘哀求: 有经济学专业背景,有传媒方向事情履历,文笔精良,能接管常常出差。
招聘报酬: 有五险一金,月薪 15K 起,事情环境新适优雅,节假日还有礼品,一年一次旅行团建。
文案哀求: 风格轻松诙谐,500 字以内。
讯飞星火 V3.5 给出的文案基本上没有什么扣分点:
GPT-4 的文案整体来说也不错,但是措辞比较讯飞星火 V3.5 不足轻松诙谐。
再看故事接龙,
天下末日后,我成为地球上唯一幸存的人,独白坐在房间里,这时,溘然想起了拍门声.....
讯飞星火 V3.5 和 GPT-4 的故事续写都能做到逻辑畅通、措辞流畅、有始有终,并且也有些细节描写,都是比较不错的。
身处职场的朋友常常会须要写一些方案、活动操持之类的,这时候也可以借助大模型的内容天生能力来帮助自己更快地完成任务。这里IT之家以“我司操持开展一个读书活动,帮我写一个活动方案”为需求,来进行测试。
讯飞星火给出的方案则是比较完全的,韶光、地点、目标、流程、前期准备、结果评估等环节都有,而且不缺细节,可用性很高。
GPT-4 的操持书相对简洁一些,细节少一些,但也比较完全。
总体来说,在文本天生方面,讯飞星火 V3.5 和 GPT-4 水平相称,天生的内容都没有什么问题。
6、代码能力
用 AI 大模型赞助写代码也是一些程序员常碰着的利用场景,这也可以视为大模型内容天生能力的主要组成。
测试时,
请用 c# 措辞天生以下代码:给你一个字符串 s,找到 s 中最长的回文子串。
如果字符串的反序与原始字符串相同,则该字符串称为回笔墨符串。
代码请遵照以下模板:
public class Solution {
public string LongestPalindrome(string s) {
}
}
我们以代码能直接拿来利用为准则,将大模型天生的代码用程序运行工具进行检测,看是否能直接完美运行。由于
首先还是看讯飞星火 V3.5,它给出的代码格式标准,算法也比较简洁,看起来很清爽。
拿到检测工具中进走运行检测,创造这段代码可以直接运行,而且输出的结果也准确,也便是说可以直接拿来用。
GPT-4 这边,给出的代码同样有规范的格式,也比较简洁,而且还有注释。
拿到检测软件中运行,也可以成功运行,表现同样不错。
除了要会写代码,还要能剖析代码,以是接下来
# Python 3
def remove_common_prefix(x, prefix, ws_prefix):
x["completion"]=
x["completion"].str[len(prefix):]
if ws_prefix:
#keep the single whitespace as prefix
x["completion"]=" " + x["completion”]
return x
#阐明这段代码是干什么的
讯飞星火的回答简洁明了地解释了这段代码的紧张功能,答案准确。
GPT-4 也给出了这段代码的实现功能,也是没有问题的,同时,它还指出了代码中存在的一处小缺点,便是末了引号不规范的问题,这一点上 GPT 要略胜一筹。
总结而言,目前讯飞星火 V3.5 和 GPT-4 都拥有很强的代码能力,并且两者的水平基本上已经没有什么差别。
7、行业知识末了再测一下两者在行业知识方面的节制情形。
先看一个化学领域的题目:
以下有关镧系元素的哪个陈述是禁绝确的?
(A) 锏系元素最常见的氧化态为 + 3。
(B) 锑系元素的合营物常常具有高配位数 (>6)。
(C) 所有锎系元素与水溶酸反应,能够产生氢气。
(D) 锏系元素的原子半径在锏系元素周期表中由 La 到 Lu 逐渐增加
讯飞星火 V3.5 和 GPT-4 都给出了精确的回答。个中讯飞星火 V3.5 的答案比较大略直接,GPT-4 的更详细一些。
接着再问他们一个关于医学方面的问题:
在心脏左房室口的周缘附有的瓣膜是什么?
讯飞星火 V3.5 和 GPT-4 都能准确给出答案。
在知识性方面,我们还有必要考虑大模型对最新信息的节制情形,也便是它们的知识库更新情形。这里
首先
讯飞星火 V3.5 给出了精确的回答,还大略先容了一下这款产品。解释它的知识库非常新,这让
而 GPT-4 则直接没有回答上来,
接着
NBA 球星克里斯保罗现在在哪支球队?
讯飞星火给出了精确而完全的回答:
GPT-4 这边依然没有回答出来,指向了搜索引擎。
整体来说,在行业知识节制方面,讯飞星火 V3.5 在知识节制的深度方面和 GPT-4 基本不相上下,但是在知识库储备的更新速率方面,目前讯飞星火 V3.5 要明显好于 GPT-4。
8、多模态能力在这次讯飞星火 V3.5 版本中,多模态能力也得到了显著提升,因此末了
首先是根本的文生图能力,
但整体看起来,GPT-4 的画作更加精细和细致一些。
接着是图生文的能力,
讯飞星火 V3.5 准确给出了图片中的笑点,也判断出了这是《猫和老鼠》中的场景,但同时也涌现了图片中没有的元素的阐明。
GPT-4 也能准确看出图片中的笑点所在,并且没有天生多余的信息,但没有指出这是《猫和老鼠》中的场景,整体来说各有优点和不敷。
在多模态体验方面,还有一个大家比较关注的功能,便是视频天生。这里
讯飞星火 V3.5 很快天生了一段先容超人的小视频,视频中还有虚拟数字人卖力讲解,很不错。
GPT-4 这边目前则尚不支持天生视频。
总的来说,目前在多模态的能力方面,讯飞星火 V3.5 也是非常全面的,实际利用的体验也很不错,比较 GPT-4 可以说各有千秋,伯仲之间。
总体来说,经由多版本的技能迭代,目前讯飞星火 V3.5 版本在根本功能体验方面是险些没有什么问题的,功能全面而且成熟好用。
二、其他根本功能体验末了我们再看看讯飞星火在其他根本功能体验方面的情形,IT之家紧张从终端覆盖情形、功能丰富度这两个方面来解释。
在终端覆盖的丰富程度上,讯飞星火一贯是比较领先的,早在去年 6 月讯飞星火 V1.5 升级的时候,就已经实现了安卓、IOS、小程序、PC、H5 五端全覆盖,因此大家在主流设备中都可以体验讯飞星火大模型。
ChatGPT 方面,目前覆盖网页端,移动端、PC 和 Mac, Linux,没有小程序和 H5,比拟讯飞星火各有上风。
而在功能性上,目前讯飞星火也是非常全面的。比如在此前 V1.5 版本上引入的讯飞 AI 助手功能,面对详细的运用处景供应专门的做事和功能,可以涵盖“职场、生活、出行、写作、意见意义、情绪”等多种场景,乃至还可以自己创作 AI 助手。
在讯飞星火上可以看到,目前各种不同种类的星火 AI 助手还是非常全面的,险些所有的运用处景都能覆盖到。
在 ChatGPT 上也有类似的功能。
而讯飞星火除了星火 AI 助手,还有独特的讯飞友伴功能,你可以将特定知识、历史对话或者每天的所读所写所思所想发给系统,定制专属的 AI 人设“友伴”,用户可以切身体验讯飞星火 APP“不仅有知识,还有个性”的 AI 人设。
再比如,讯飞星火还拥有丰富的插件功能,包括 PPT 天生、邮件天生、简历天生、运营文案天生、思维导图、AI 口试官等等,功能非常完好。
这些是目前 GPT-4 尚不具备的能力。
结语此前,科大讯飞董事长刘庆峰在接管采访时曾表示,讯飞星火在 2024 年 4 月份将全面对标 GPT-4。
而从这次对全新讯飞星火 V3.5 版本的体验来看,其在综合能力的体验方面确实已经可以和 GPT-4 不分伯仲,在逻辑推理、数学能力、知识库更新速率等方面乃至还有一定程度的领先。
总之,讯飞星火认知大模型 V3.5 让我们看到了国产大模型在技能和运用方面无限的发展潜力,也期待未来讯飞星火的持续进化,让我们的 AI 大模型技能和运用生态真正实现国际化的引领。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/ktwx/24664.html
上一篇:东莞加强进境邮件寄递环节疫情防控
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com