当前位置:首页 > 家装 > 装修设计 > 文章正文

讯飞星火大年夜模型V4.0体验:周全进化体验不输GPT-4o

编辑:[db:作者] 时间:2024-08-25 04:33:47

讯飞星火大模型 V4.0 基于全国首个国产万卡算力集群“飞星一号”演习而成,全面提升了大模型底座的七大核心能力。
整体超越 GPT-4 Turbo,特殊是针对繁芜指令、繁芜逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。

讯飞星火大年夜模型V4.0体验:周全进化体验不输GPT-4o

同时科大讯飞还带来了全新升级的讯飞星火 App / Desk,发布“个人空间”,打造每个人的 AI 助手。

为了进一步理解讯飞星火大模型 V4.0 的实际体验,IT之家也对其做了一番体验评测,本日就为大家送上体验报告。

一、讯飞星火 App / Desk 功能升级

随着讯飞星火大模型 V4.0 到来,星火 App / Desk 也迎来了功能升级。
先以讯飞星火 Desk 为例,进入主界面,可以看到元素更加丰富,左上角多了“创建智能体”的功能入口,左侧栏还有新的“智能体中央”,右侧多了“个人空间”界面。

点击左下角的头像可打开“我的”标签,在底部中间的输入框则可以进行对话。

App 真个界面也有大变革,底部变成了“对话”、“智能体”、“空间”、“个人”四个选项卡,每个选项卡对应的功能界面也各不相同,更加丰富。

1、对话功能

在“对话”功能中,增加了长文本问答的能力,点击对话框右侧的上传文件按钮即可上传文件进行对话。

IT之家上传了一份关于中国通信标准化协会有关扩展现实家当的调查报告,让它帮忙进行择要,它果真很快就能给出准确的择要,和文档本身的紧张内容也是贴合的。

然后

点击对话界面顶部的返回按钮,就能进入对话列表界面,你创建的对话都能在这里显示,还可以进行置顶或删除。

通过顶部的搜索功能,还可以用关键词搜索干系的智能体、“我的空间”中的文档以及待办事项等信息。

2、智能体

随着天生式 AI 的发展,智能体将成为大模型在运用层面的主要方向。
而目前,讯飞星火开放了超过 16000 智能体,覆盖职场、生活、创作等多场景,打造开箱即用的大模型运用。

面向专业垂直场景,讯飞星火 App / Desk 目前首批上线 14 个智能体,包括讯飞晓医、晓知、星火条约助手、讯飞智作、讯飞智文等。

以搭载讯飞星火医疗大模型的“讯飞晓医”为例,它可以为你供应症状自查、药物查询、中医辨证、报告解读、医院和科室推举以及饮食建议等功能。

比如在报告解读中,

日常生活中,当我们吃药时常常会碰着“不知道这两种药能不能一起吃”的困扰,专门为此去讯问年夜夫也比较麻烦,这时就可以用“讯飞晓医”的拍照功能,同时拍下两个药盒,“讯飞晓医”就会结合自身的专业知识来见告你这两个药是否可以一起吃。

这里

除了拍药品,你还可以将你的体检报告拍照上传,让“讯飞晓医”来帮你剖析,比如

不过

再测试一个比较实用的智能体:星火条约助手,它支持条约智审、条约天生、条约比对和条约概要等功能,这里以条约智审为例,

3、个人空间和人设标签功能体验

过去很多时候我们利用 AI 大模型产品输入输出得到的结果都是公开的信息,而对付我们个人的信息,那些公开的大模型就无能为力。
但实在无论是学习、事情还是生活,我们每每须要大模型能更懂我们个人的需求,有一个属于我们个人的知识库,全新升级的讯飞星火也考虑到了这一点,特殊推出了“个人空间”的功能。

“个人空间”相称于是为用户打造的专属私域知识库,通过上传个人文档,让大模型进行更精确的知识问答和内容天生;并且通过人设标签、日程管理、信息订阅、创建发音人,为用户供应更加个性化和意见意义化的做事。

在个人空间里,上传的文档默认会按韶光顺序进行排列,你也可以切换到不同文件分类的条眼前进行查看。

选择对应的一个或多个文件,你就可以针对这些选中的文件进行翻译、总结、理解、剖析或者其他形式的问答,

比如

再比如

其余,在

(1)什么是新能源汽车的“三电”系统。

(2)新能源汽车的“三电”系统各自有什么技能门类?

(3)我国在新能源汽车“三电”系统方面的发展现状。

可以看到,讯飞星火同样很快就给出了一篇小短文,短文语义流畅,哀求的内容都包含在内了,构造也比较清晰,不过整体略显程式化,拿来利用的话可以稍做修正。

其余在短文中,讯飞星火 V4.0 还给出了引用来源的标注,某段话来自于资料的那部分,都有来源解释,让文章更加有理有据,减少了大模型幻觉的情形。

除了个人空间,讯飞星火 App / Desk 现在还可以通过人设标签,日程管理、信息订阅、创建发音人等,带来更加个性化和意见意义化的做事。

以 App 为例,在“我的”栏目里,现在可以设置自己的人设标签,选定某个人设标签后,大模型会根据你的标签供应个性化的内容和回答。

比如

可以看到,在设定“引经据典,文化内涵”的标签后,讯飞星火输出的短文确实加入了不少名言典故,包括《孟子・告子下》、《论语・阳货》、《论语・述而》等等。

总体来说,全新升级的讯飞星火 App / Desk 功能更强大、更丰富,但在交互布局上并没有显得缭乱,无论是星火 App 还是星火 Desk 各项功能层级都有序、清晰,而且丰富的智能体的加入让讯飞星火更好用、更实用,个人空间以及个性标签等个性化的功能,则让讯飞星火能够成为更懂你的大模型 AI 助手。

二、讯飞星火大模型 V4.0 通用能力体验

正如前文所说,本次讯飞星火 V4.0 在通用能力方面全面提升了大模型底座的七大核心能力,特殊是针对繁芜指令、繁芜逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。
同时在多模态能力上也得到了再升级。

这里IT之家也针对这些通用能力做了体验测试,测试过程中

而 GPT-4o 目前还不支持视频剖析的功能,同样的问题让 GPT-4o 来回答,会涌现“无法处理”的信息。

还是针对这段视频,

然后

2、图文能力测试

除了视频理解能力,图文能力也是大家利用大模型比较多的功能。
这里IT之家首先稽核图片理解能力。

然后再问 GPT-4o,它的回答和讯飞星火 V4.0 差不多,也准确阐明了图片的笑点。

接着IT之家用一道几何证明题来磨练讯飞星火 V4.0:

上传这张图片,直接让讯飞星火 V4.0 进行解答,可以看到,它给出的答案是精确的,解题的过程也没有什么问题。

再让 GPT-4o 来解答一下这道题,结果就有点奇怪了,虽然终极答案是精确的,但 GPT-4o 输出的内容中有 2/3 都是缺点的解题步骤,自我创造后又重新整理思路,末了输出精确答案中所用的中位线定理也是错的。

再看文生图的能力,这也是目前很多人都会用到的功能。

紧接着

再看 GPT-4o,天生的图片也很好看。

还是让它换成中国风的风格,画面整体风格和上一张差异不大,里面多了一些中国风建筑的元素。

3、逻辑推理能力测试

逻辑推理能力是这次讯飞星火 V4.0 的一大升级看点,测试时IT之家也重点稽核了讯飞星火 V4.0 在逻辑思维方面的表现。

首先是生活知识推理方面,

1991 年 1 月 25 日至 2024 年 3 月 2 日一共多少天(首尾都算)

讯飞星火 V4.0 给出了详细的演算步骤,

而同样的问题,利用 GPT-4o 来算,它直接给出了答案,也是精确的。

接着

假设有一个池塘,里面有无穷多的水,现有两个空水壶,容积分别是 5 升与 6 升。
问如何用这两个水壶从池塘里取得 3 升的水?

对付这个问题讯飞星火 V4.0 的回答步骤清晰,逻辑清楚,实际可操作性也没有问题。

GPT-4o 方面,逻辑思维也挺清楚,实际可操作性也没有问题,不过天生的答案重复,解释的笔墨较多,步骤也略繁琐些,也算是美中不敷吧。

然后

找规律:1=2,2=6,3=12,4=?

对付这个问题,讯飞星火 V4.0 给出了详细的思考步骤,还给出了规律的公式,结果当然也是精确的。

GPT-4o 方面给出的思考步骤和答案也没什么问题:

4、数学能力测试

前面我们测试过两款大模型的逻辑推理能力,与之相似的实在还有数学答题的能力,可以更进一步检测大模型的“智商水平”。
测试时,我们直接上今年全国高考卷的真题。

比如这一题:

这是一道函数解析几何的题目,讯飞星火 V4.0 成功做出了回答,

至于 GPT-4o,一顿操作猛如虎,一看答案没算出。

接着看更难一点的单选题末了一题:

讯飞星火 V4.0 给出的答案很简洁,虽然

GPT-4o 这次也给出了精确的答案,不过解题步骤稍显繁芜,有些步骤并没有太大的必要。

5、措辞理解能力测试

在措辞理解能力方面,IT之家紧张测试大模型的文本信息抽取能力、情绪剖析能力、翻译能力和歧义理解能力。

首先文本信息抽取能力方面,我们选择了IT之家此前发布的两篇新闻进行杂糅,让大模型从中提取信息,问题如下:

先看讯飞星火 V4.0 的回答,前两个问题的回答都是准确的,末了一个问题须要绕个弯,讯飞星火 V4.0 已经知道了 5 月和 1-5 月的出口数据,只差相减这一步。

GPT-4o 的回答同样也是前两个问题回答得很准确,但第三个问题直接输出了缺点的答案。

接着看情绪剖析能力,

对付这两个问题,讯飞星火 V4.0 分别给出了答案。
IT之家将讯飞星火 V4.0 的回答和标准答案做比对,虽然措辞表达上有出入,但整体意思是没问题的,标准答案中须要表示的点讯飞星火 V4.0 在回答中也覆盖到了。

GPT-4o 给出的回答也没什么问题,对文章作者的情绪把握也是比较准确的,第二题的回答相对来说也更有条理性一些。

翻译能力方面,IT之家从外媒 tomshardware 找来一段新闻的节选,个中有许多科技专有名词,磨练两款大模型的翻译能力:

讯飞星火 V4.0 的翻译整体来说措辞畅通流畅,意思也比较清晰明确,个中的专业名词也没有错翻、漏翻。

GPT-4o 这边的翻译效果也很好,和讯飞星火 V4.0 差不多。

末了是措辞歧义的理解能力,IT之家找来一句可能产生歧义的句子让大模型去剖析:

剖析并修正下面这句话中可能产生歧义的问题:

县里的关照说,让赵乡长本月 15 日前去报到。

讯飞星火 V4.0 准确剖析出了居中可能存在歧义的缘故原由,在于韶光表述不清楚,给出的两种修正方案都可以让句子没有歧义。

GPT-4o 对这句话的歧义问题剖析就涌现了偏差,修正的结果也不对,有点不知所云。

6、内容天生能力测试

内容天生可能是大家利用大模型最常用的功能,用来赞助我们进行一些文案创作。
这里

首先

招聘哀求: 有经济学专业背景,有传媒方向事情履历,文笔精良,能接管常常出差。

招聘报酬: 有五险一金,月薪 15K 起,事情环境新适优雅,节假日还有礼品,一年一次旅行团建。

文案哀求: 风格轻松诙谐,500 字以内。

讯飞星火 V4.0 给出的文案基本上没有什么扣分点:

GPT-4o 写的文案也很精良,哀求的点都知足了。

上班族们常常会须要写一些方案、活动操持之类的,这时候也可以借助大模型的内容天生能力来帮助自己更快地完成任务。
这里IT之家以“我司操持开展一个读书活动,帮我写一个活动方案”为需求,来进行测试。

讯飞星火给出的方案则是比较完全的,韶光、地点、目标、流程、前期准备、职员配置、预算评估、结果评估等环节都有,而且不缺细节,可用性很高。

GPT-4o 的操持书相对简洁一些,但也比较完全,该有的地方都有了。

7、代码天生能力测试

用 AI 大模型赞助写代码也是一些程序员常碰着的利用场景,这也可以视为大模型内容天生能力的主要组成。

测试时,

请用 c# 措辞天生以下代码:给你一个字符串 s,找到 s 中最长的回文子串。

如果字符串的反序与原始字符串相同,则该字符串称为回笔墨符串。

代码请遵照以下模板:

public class Solution {

public string LongestPalindrome(string s) {

}

}

我们以代码能直接拿来利用为准则,将大模型天生的代码用程序运行工具进行检测,看是否能直接完美运行。

首先还是看讯飞星火 V4.0,它给出的代码格式标准,算法也比较简洁,看起来很清爽。

由于

GPT-4o 这边,给出的代码同样有规范的格式,也比较简洁.

拿到检测软件中运行,也可以成功运行,表现同样不错。

总体来说,在大模型的通用能力方面,讯飞星火 V4.0 和目前 ChatGPT 最前辈的 GPT-4o 模型比较,从

在发布会上,科大讯飞还谈到了讯飞星火大模型在国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行等重点行业的运用,可见讯飞星火已经在 AI 大模型领域构建起自主可控的独特上风,而通过对讯飞星火 V4.0 的体验,IT之家也对讯飞星火未来在 AI 领域的表现充满期待,相信他们能够持续进化,让国产 AI 大模型技能和运用生态真正实现国际化的引领。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/122286.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com