当前位置:首页 > 家装 > 装修报价 > 文章正文

国产AI大年夜模型哪家强?十大年夜维度横评四款主流大年夜模型!

编辑:[db:作者] 时间:2024-08-24 23:44:50

对付海内用户来说,目前不少大模型产品已经开放内测。
不过,目前这些大模型产品在完善度、功能性、易用性等方面都各有不同,大家可能不知如何选择。

国产AI大年夜模型哪家强?十大年夜维度横评四款主流大年夜模型!

本日,IT之家不妨就针对几款产品为大家做个体验横评。

本次横评测试,IT之家紧张针对通用大模型产品,并且选择了目前有名度比较高的四款产品,分别是百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问和 360 智脑。

不同的测试大类中,我们以满分 10 分计,如果某款大模型在某个测试小项中不符合哀求或者体验不好,根据轻重每次扣除 1-3 分,末了剩余的分数为该大模型在这个测试大类的评分。

评测以及评分过程中难免会存在主不雅观的成分,因此分数仅供大家参考。

由于接下来详细评测部分内容较多,为了方便大家更好地捉住重点,

文心一言:84 分

360 智脑:75 分

通义千问:71 分

讯飞星火的表现相信会让大家感到惊艳,事实也是在这次横评中,讯飞星火在每个项目都能保持前二的成绩,特殊建议大家关注他在实时搜索、内容天生和代码编写方面的表现。
此外文心一言也是不错的,在内容天生、避坑能力、多模态输出等方面都有不俗之处。

当然,详细每款产品为什么终极是这个分数?好在哪里?丢分项又在哪里?大家则可以通过下面详细的评测过程进行理解。

话不多说,就让我们开始吧。

一、终端支持

在大模型支持的平台丰富度方面,文心一言目前支持网页端、安卓 /iOS App,暂时没有桌面 / Mac 版和微信小程序。

通义千问目前则只有网页端可用。

360 智脑方面,目前覆盖了网页版、安卓 /iOS 移动 App 和桌面版(无 Mac),支持的平台还是比较多的。

而覆盖最多的是讯飞星火,目前讯飞星火是唯一支持五端(安卓、IOS、小程序、PC、H5)全覆盖的大模型。

这一环节,

360 智脑:9 分

文心一言:9 分

通义千问:7 分

二、措辞理解能力测试

AI 大模型的实质实在便是大措辞模型,因此措辞理解可以说是影响各种大模型产品体验的根本要素。
这里

① 语意理解

首先用经典的一词多意的段子来磨练大模型们:

领导说:“你这是什么意思?”小明说:“没什么意思,意思意思。
" 领导说:“你这就不足意思了。
”小明说:“小意思,小意思。

这段话里,不同的“意思”分别代表什么意思?

先看文心一言的阐明,详细、准确,没有遗漏:

通义千问不仅回答了每个“意思”的意思,更给出了职场沟通的建议,回答很有逻辑性:

讯飞星火的回答也是比较靠谱的,对每个“意思”的阐明比较前两者更详尽深入,特殊是末了一句,讯飞星火对一句话里的两个“小意思”都做理解释。

360 智脑的回答就有点大略了,回答得比较模糊笼统:

② 情绪剖析

接下来,

从结果来看,文心一言、讯飞星火、360 智脑和通义千问的回答各有特点,但整体意思都是准确的,都没有把句子的含义局限在“鸟”这个喻体上,因此回答都是合格的。

③ 择要提炼

这部分的末了,我们来看看四款大模型对文本的总结提炼能力。

先看文心一言的表现,虽然是总结了,意思也精确,但总结得比较啰嗦,而且不符合“一句话”的哀求:

通义千问也有类似的问题,总结啰嗦,而且超过一句话的限定:

360 智脑在这一项中表现不错,一句话准确总结了这段文章的大意:

讯飞星火提炼得也很精髓精辟,一句话搞定,而且意思准确。

在这一环节,四款大模型产品的得分分别为:

讯飞星火:10 分

通义千问:8 分(择要提炼 - 2)

360 智脑:8 分(语意理解 - 2)

文心一言:8 分(择要提炼 - 2)

三、知识丰富性测试

很多人会用 AI 大模型会取代搜索引擎,由于用大模型搜索各种知识类信息很方便,还没有广告。
这时候大模型的知识丰富度就比较主要了。
本次测试IT之家针对四个类别的知识对所选大模型进行磨练测试。

① 生活知识类

生活知识方面,IT之家首先用“平桥豆腐属于哪个菜系?”分别问四款大模型。
个中,讯飞星火和文心一言给出了精确回答,属于淮扬菜,而且还给出了这道菜的做法。

这个问题中,通义千问和 360 智脑回答缺点,分别说成了豫菜和川菜。

② 事情技能类

在事情技能类知识方面,IT之家用“如何在 WPS 中连续利用格式刷”这个问题来讯问。

文心一言给出了两个方法,分别是点击按钮和快捷键,个中快捷键的方法精确,按钮法缺点,该当扣 1 分。

讯飞星火之给出了双击格式刷按钮的方法,虽然精确,但短缺快捷键法,也应扣 1 分。

360 智脑和通义千问给的方法,都不是

③理工专业知识类

理工专业知识方面,

④ 历史人文类

接下来是历史人文类知识,IT之家用“《红楼梦》中结的两个大型诗社和社长分别是谁?”这个问题来磨练。
这是一个相对难且小众的问题。

首先看文心一言,两个诗社答对了,但是社长答错了一个,海棠社的社长是李纨。

通义千问对这个问题的回答有点离谱,诗社和社长都答错了,而且会让人有一种“咱们看的是同一本《红楼梦》吗”的觉得。

360 智脑的回答也不太好,第二个大型诗社该当是桃花社,而且两位社长的回答都不对。

末了是讯飞星火,这是这个问题中唯一把两个小问都答对的选手:

大概是由于科大讯飞本身有做 AI 教诲业务的成分,节制大量的教诲大数据,因此整体测下来在知识丰富性和准确性方面的表现是比较亮眼的。
这个环节中,四款大模型终极的评分分别为:

讯飞星火:9 分(事情技能类 - 1)

文心一言:8 分(事情技能类 - 1,历史人文类 - 1)

360 智脑:5 分(生活知识类 - 1,事情技能类 - 2,历史人文类 - 2)

通义千问:5 分(生活知识类 - 1,事情技能类 - 2,历史人文类 - 2)

四、逻辑推理能力测试

AI 大模型是否足够聪明,很大程度上取决于大模型是否具备足够强大的逻辑推理能力。
因此本次横评,IT之家也准备了一些逻辑思维干系的考题来分别磨练四款大模型。

① 逻辑推理问题测试

首先,

“小明牵着一只狗和两只小羊回家,路上碰着一条河,没有桥,只有一条小船,并且船很小,他每次只能带一只狗或一只小羊过河。
你能帮他想想办法,把狗和小羊都带过河去,又不让狗吃到小羊吗?”

对付这个问题,文心一言的回答第一步就错了,先带一只羊过河,那么原岸的狗就会将另一只羊吃掉。
而且看文心一言的回答,基本属于“不苟言笑地胡说八道”,五个步骤看得人云里雾里。

通义千问的回答也不对,而且比较敷衍。

讯飞星火的回答基本精确,但是如果较真的话,末了还差一个把狗带到对岸的步骤,因此该当扣 1 分。

360 智脑这次的回答还是比较完美的,步骤全,而且能看懂。

② 知识缺点、陷阱识别能力测试

接着更进一步,

这里

对付这个问题,360 智脑和讯飞星火都没有指出题干的缺点,但是从回答中能看到,他们的回答还是以“关羽失落荆州的缘故原由”来回答的。
因此这里我们就扣 1 分吧。

通义千问的回答全程都笃信是“赵云失落了荆州”,而且它的回答看起来有点离谱,还有“导致荆州被曹操攻占”的诡异发言。

这个问题中回答的最好的是文心一言,不仅指出了题干的缺点,也准确剖析了关于丢失荆州的缘故原由。

本环节四款大模型产品的评分分别为:

360 智脑:9 分(避坑 - 1)

讯飞星火:8 分(逻辑问题 - 1,避坑 - 1)

文心一言:8 分(逻辑问题 - 2)

通义千问:6 分(逻辑问题 - 2,避坑 - 2)

五、内容天生能力测试

用户利用大模型的另一大用场便是让它们帮助写一些实用性文案,比如招聘文案、关照文书、店面评价、乃至让他们创作文章、小说、论文等等。
我们把这些统称为内容天生能力。
这也该当成为评测体验大模型的主要项目之一。

① 文案创作

我们首先来看四款大模型产品的实用文案创作能力,

还是先看文心一言的回答,它创作的文案是符合哀求的,并且条理清晰,风格也没跑偏,属于轻微改改就能直接用的水平。

通义千问创作的文案整体是不错的,但是末了一段让人看着有点蒙圈,可见它对哀求的理解还是有点问题,这里须要扣 1 分。

360 智脑创作的文案有点过于简洁了,虽然条件也都符合,但文案看着有些机器,格式也不足清晰明了,因此也扣 1 分。

末了是讯飞星火,它创作的文案也是挺好的,基本没什么问题,也是轻微改改就能直策应用了。

② 故事接龙

故事接龙也是磨练大模型创作能力的好方法,因此在第二部分,

文心一言的续写整体不错,只是在末了轻微有一些逻辑不通畅的地方,但瑕不掩瑜,而且措辞表达中还夹杂着讲述者的情绪,不是仅仅在陈述一个故事。

通义千问的续写也不错,条理清楚逻辑完全,是一个比较合格的续写。

讯飞星火的续写也很好,描写比较细致,设定也还算合理,和通义千问类似,中规中矩。

360 智脑的续写相对大略,没有细节,因此须要扣 1 分。

③ 文章写作

学生朋友们也可以利用大模型的文章天生能力,来天生范文,学习如何写好对应题材的文章。
这里IT之家以 "家庭环境对人发展的影响" 为主题,让四款大模型写一篇高考水平的作文,看看他们的写作能力如何吧。

首先是文心一言写的作文,文章整体逻辑通畅,构造清晰,论点有条有理,可以成为学生写作时用以参考的素材,但是也有不敷,首先是短缺论据,其次文章篇幅较短,扣 2 分。

通义千问的作文整体文笔看起来和文心一言差不多,措辞也比较平实,短缺论据,但是它的文章字数是合格的,可以扣 1 分。

360 智脑方面,天生的结果不像是作文,字数、文笔等方面都不太能让人满意,扣 3 分。

末了是讯飞星火,它的文章和通义千问的差不多,条理清晰,不雅观点明确,字数也合格,便是也没有论据来增加文章的可读性,扣 1 分。

④ 方案企划

身处职场的朋友常常会须要写一些方案、活动操持之类的,这时候也可以借助大模型的内容天生能力来帮助自己更快地完成任务。
这里IT之家以“我司操持开展一个读书活动,帮我写一个活动方案”为需求,来进行测试。

文心一言给出的操持很完全,有条有理,可以成为一个不错的模板来利用。

通义千问设计的是一个大规模、永劫光的读书活动,也可以实行,但是方案短缺足够的细节,有点笼统,可以扣 1 分。

360 智脑比通义千问还笼统,缺少流程细节,这样的方案领导可能不会满意,这里就扣 2 分吧。

讯飞星火给出的方案则是比较完全的,韶光、地点、目标、流程、前期准备、结果评估等环节都有,而且不缺细节,和文心一言一样是可用的方案。

小结,在内容天生方面,IT之家环绕文案创作、故事续写、作文写作和方案企划四个主题进行了测试,整体看下来讯飞星火和文心一言在内容天生方面是比较出色的,个中讯飞星火还要稍好一些。
本环节它们各自的评分为:

讯飞星火:9 分(作文 - 1)

文心一言:8 分(作文 - 2)

通义千问:7 分(文案 - 1,作文 - 1,企划 - 1)

360 智脑:3 分(文案 - 1,故事 - 1,作文 - 3,企划 - 2)

六、代码编写能力

AI 大模型出圈时能写代码的技能也吸引了很多人的眼球,这也可以视为大模型内容天生能力的主要组成。
因此IT之家也测试了四款大模型产品的写代码能力。

测试时,

如果字符串的反序与原始字符串相同,则该字符串称为回笔墨符串。

代码请遵照以下模板:

public class Solution {

public string LongestPalindrome(string s) {

}

}

我们以代码能直接拿来利用为准则,将大模型天生的代码用程序运行工具进行检测,看是否能直接完美运行,若能运行就不扣分,不能运行就扣 3 分。
这个过程中,由于

首先看文心一言的结果,它天生的代码看起来是有模有样的,有注释也有简介,格式也比较清晰规范。

不过在运行检测时,可以看到这个代码涌现了实行缺点,也便是不能直接运行,详细是代码上涌现了数组越位的缺点。

通义千问天生的代码,在 C# 措辞下,代码格式没有缩进,不雅观感不佳,而且涌现了把题目中的括号缺点识别到天生的代码中的问题。

放到编译器中。
代码倒是能运行,但是不能输出精确的结果,这解释代码在算法上存在问题。

再看 360 智脑的代码,整体格式比通义千问规范,有注释,但是也有多余的空行。

运行这段代码,创造无法直接实行,代码在第 6 行就涌现了语法缺点,不能进行下去。

末了是讯飞星火,它给出的代码格式很标准,而且代码比较前三者要简洁很多,看着很清爽。

拿到检测工具中进走运行检测,创造这段代码可以直接运行,而且输出的结果也准确,也便是说可以直接拿来用。
它成为这个环节中唯一通过检测的代码,可见讯飞星火在写代码的能力上是相称不俗的,毕竟要担保天生的代码能够直接拿来用是相称不随意马虎的,不仅要整体算法精确、格式以及细节也都要合规。
这实在也是讯飞星火的强项了。

总体来说,在代码编写环节,讯飞星火展现出了比较明显的上风。
而在即将到来的 8 月 15 日,讯飞星火还将迎来主要的版本升级,根据已经获知的信息,它们会在代码能力上进一步提升,还是比较值得期待的。

在代码编写环节四款产品的评分分别为:

讯飞星火:10 分

文心一言:7 分

360 智脑:7 分

通义千问:7 分

七、多轮对话能力测试

能否影象高下文谈天的内容,也是 AI 大模型的一个主要能力,很多时候如果我们对大模型的回答不满意或以为问题提得不好,须要局部微调一下,如果不能影象高下文,我们就得把问题整体重复一遍,再提出新的哀求,很麻烦。
因此这里我们也测一下这四款大模型是否支持影象高下文,也便是多轮对话的能力怎么样。

在这个测试中,我们选择的多轮对话分别为:

“有哪些描写玉轮的诗词?

有杜甫写的吗?

你自己可以创作一首吗?

换一首。

后面三个问题都省去了“描写玉轮”这个条件。

还是先看文心一言的测试,四轮对话,文心一言应对得很好,都能根据上文的问题回答出来。

通义千问方面,表现也能够让人满意。

360 智脑的高下文影象能力也还行,但美中不敷的是,第二个问题把白居易描写草原的诗强行说成了描写玉轮的,而且末了一个问题

末了是讯飞星火大模型,它的表现也是轻松应对没有压力。

整体来说,四款 AI 大模型的多轮对话能力都是不错的,除了 360 智脑在回答内容上出了一些小问题,其他三款的表现都没啥毛病。
这一环节四款产品的评分分别为:

文心一言:10 分

讯飞星火:10 分

通义千问:10 分

360 智脑:9 分

八、实时搜索能力测试

大家利用 AI 大模型来取代搜索引擎获取信息,很多时候肯定是想要获取尽可能比较新的信息,也便是实时搜索能力,这就很磨练大模型背后语料库、数据库的更新速率了,同时这也是影相应用体验的主要成分。
IT之家也针对这一点做了比拟测试。

测试时,

文心一言首先给了一个缺点的回答:

通义千问也阵亡了:

360 智脑扑街 3:

这个问题,只有讯飞星火给出了精确答案:

接下来,

球星克里斯・保罗在今年 6 月被交易到金州勇士队,这个韶光点其实在《长安三万里》之前,而讯飞星火答对了《长安三万里》的题目,却没有准确回答这一题。
可见大模型背后的语料库对付不同领域的数据更新速率还是不一样的。

但此后,

总结,在实时搜索能力方面,

文心一言:7 分

通义千问:6 分

360 智脑:6 分

九、多模态输入输出

目前通用大模型产品紧张还是以笔墨输入输出的形式为主,但是有一部分产品已经能支持文生图、乃至文生视频、声音等。
如果能支持多模态输入输出,无疑会让大模型的体验更好。
以是下面我们看看四款产品在多模态方面的支持情形。

文心一言目前支持文生图,比如

文心一言还支持文生语音,

但是文心一言目前还不支持文生视频:

通义千问方面,目前文生图、文生视频、文生语音都不支持。

360 智脑目前支持文生图,并且能一口气画出四幅牡丹画作:

文生语音方面,由于目前 360 智脑每一条都支持语音朗读的功能,因此我们也可以算它支持文生语音。

末了是讯飞星火,目前它还不支持文生图和文生视频功能:

不过,目前讯飞星火支持对回答的语音朗读,并且在 App 端还可以切换朗读的主播,因此也可以说是支持文生语音的能力的。

输入方面,目前文心一言、讯飞星火和 360 智脑都支持语音输入,通义千问目前则还不支持。

总体来说,目前在多模态输入输出方面,文心一言和 360 智脑整体上的表现是相对出色的,特殊是 360 智脑,未来随着跨模态输入能力的上线,该当会成为视觉事情者们主要的生产力工具。

本环节,四款大模型产品的评分分别为:

文心一言:9 分

360 智脑:9 分

讯飞星火:8 分

通义千问:6 分

十、AI 助手功能

如今很多用户会在自己的专业领域内借助大模型的能力,同时他们利用大模型的场景也越来越细分,于是很多通用大模型产品也推出了针对某一单个场景的 AI 助手功能,来帮助用户充分调用大模型在某一详细领域的能力。

因此,末了这部分我们来看看所比拟的四款大模型在 AI 助手方面的支持情形。

首先还是看文心一言,在 App 真个“创造”栏目中,我们就能找到丰富的“AI 助理”,比如 PPT 大纲天生、朋友圈神器、小红书探店文案等等,他们“术业有专攻”,大家可以根据自己的须要,选择专业的 AI 助理来赞助自己的事情。

通义千问方面,在“百宝袋”栏目中也能找到一些 AI 助理,但是目前数量上没有文心一言多,IT之家找到的只有 9 个。
在数量丰富度方面须要扣 1 分。

讯飞星火则有专门的星火助手中央,里面的 AI 助手无论数量、种类都非常丰富,功能完好。

以影评助手为例,

讯飞星火还支持自己创作 AI 助手,此前IT之家也为大家体验过,利用讯飞星火创作 AI 助手的流程并不繁芜,而且审核的速率也很快,大家可以根据自己独特的需求“定制”AI 助手。

360 智脑的 AI 助手叫做“数字人”,进入 360 智脑的首页就能看到很多数字人列表,而且还能进入数字人广场,这里面也供应了丰富的数字人可供大家互换、利用。

比较有趣的是 360 智脑的数字人里有很多古今中外的“名人”,比如

整体来说,文心一言、讯飞星火、360 智脑在 AI 助理方面的表现都能够让人满意,通义千问虽然也有 AI 助理,但目前数量还略少。
这一环节,

讯飞星火:10 分

360 智脑:10 分

通义千问:9 分

结语

本次横评,IT之家从终端支持、措辞理解能力、知识丰富性、逻辑推理能力、内容天生能力、代码编写、多轮对话能力、实时搜索能力、多模态输入输出、AI 助手功能支持十个方面对文心一言、讯飞星火、通义千问和 360 智脑四款大模型做了详细的体验横评。

整体测下来,如大家所见,讯飞星火、文心一言在产品体验的全面性方面是比较出色的。
特殊是讯飞星火让IT之家感到惊喜,在很多项目中的表现还要更胜文心一言这样的明星选手一筹,突出一个“稳”,而且在实时搜索、代码编写方面上风明显,这也可以看出科大讯飞在自然措辞理解方面的 AI 技能确实有深厚的积淀。

当然,讯飞星火也不是完美的,紧张便是目前多模态支持上略显单一,还有逻辑推理环节稍有不敷。

文心一言的整体体验也不错,它在内容天生、避坑能力、多模态输出等方面有上风,但是在逻辑推理环节有不敷,比拟讯飞星火则紧张在实时搜索、内容天生和择要提炼上略处下风,但整体上,也是很值得推举给大家利用的海内大模型产品。

360 智脑在多模态支持、AI 助手方面比较有亮点,但是在内容天生、措辞理解、逻辑推理等比较根本的体验方面,能觉得到还有一些待完善的空间,特殊是内容天生,成为 360 智脑在这次测试中的紧张扣分项。

通义千问目前在功能全面性、完善性和细节体验上差强人意,就本次测试过程来说,在多轮对话、语意理解、文案创作等方面表现不错,其他方面体验大多存在不敷,总体来说也还是可以利用的水平,当然这也和通义千问目前侧重于在电商业务的探索、运用有关。

下面再回顾一下每款产品的总分数:

讯飞星火:93 分

文心一言:84 分

360 智脑:75 分

通义千问:71 分

末了要说的是,本次横评所利用的问题样本毕竟有限,大家实际体验时的感想熏染可能与IT之家横评的内容有出入,因此上述评分也仅供大家参考,实际选择时,大家还是要根据自身的感想熏染来选用适宜自己的 AI 大模型。

同时,IT之家也期待随着云端、终端算力的增强,演习推理的轮数不断深入以及语料库的持续丰富,各家国产 AI 大模型产品能够千帆竞渡,在可用性、成熟度和利用体验方面能够以比想象中更快的速率进化,持续推动 AI 深刻变革我们的生产和生活。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxbj/31830.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com