编辑:[db:作者] 时间:2024-08-25 02:42:12
说到AI,很多人会想到ChatGPT,而我们现在也有许多好用的国产AI大模型。
在2023年的中国,8个月内出身了238个大模型,阿里、华为、腾讯、京东、字节、360、科大讯飞等一众大厂纷纭了局,还有复旦、清华等高校机构加速研究,以及智谱AI、月之暗面等黑马涌现。
这些海量AI大模型里,子木挑选了4款市情上反响比较好的、也是我常用的AI大模型进行评估比拟,帮助你选择适宜自己的国产AI大模型。
本文评估的4个AI大模型
文心一言4.0、通义千问、kimiAI、天工AI。
一、大措辞模型的5个评估维度
对付AI大模型的评估,目前还没有威信、统一的评估维度,我根据文案创作的需求、利用习气,建立了自己的AI大模型内容创作评估维度:
1. 措辞质量与创意性
这是用AI创作中最关注的部分,表示AI写出来的内容质量。
它包括:
文本流畅度,用来评估AI天生的文案是否自然流畅,语法精确,符合人类日常互换习气,我会用主题文章、简历撰写这两个题目来进行测试评估;
个性化内容,用来评估AI是否可以根据我们输入的个性化哀求,比如语气、风格等等来定制文案,知足不同的创作需求,我会用不同人物先容同一个事物的2个问题来进行测试评估。
2. 领域适应性
用来评估AI模型是否具备特定行业或领域的专业知识,能否天生干系性强、准确无误的文案内容,我比较关注的是新媒体、教诲培训行业,以是我一样平常会用这两个行业的代表性问题来进行测试评估,这一块每个行业的问题不一样,大家可以根据自己的行业来设计问题。如果有须要的话,也可以提问或联系我互换。
3. 逻辑性
用来评估AI创作内容的逻辑性,我会用公务员考试常用的逻辑推理题,和故事的续写这两个问题来测试评估,逻辑推理题是看它的推理过程,结果是否精确,而故事的续写,看情节是否合理、人物的行为是否符合逻辑。
4. 时效性
时效性决定了AI天生内容时是否能用到最新的案例或事宜、我们在用AI探求资讯时是否能给到最新的信息。我会用最新的热点事宜、1个月前、3个月前的3个不同问题,来评估测试AI的时效性。
5. 本钱与易用性
AI作为一个赞助工具,是不是方便利用、利用本钱如何,也是我们须要考虑的点。
二、4款国产大模型比拟1. 大模型简介文心一言4.0:是百度推出的知识增强大措辞模型,可以输出文本内容,也可以天生图片。通义千问:是阿里云发布的千亿级参数大模型,可以剖析文档,提炼文档的关键信息。KimiAI:月之暗面开拓的大模型,可以上传PDF、word、ppt、图片等多种格式的文档,还可以剖析网页内容,比较故意思的是,还能直接访问小红书的链接,抓取内容进行总结。天工AI:昆仑万维开拓的双千亿级大措辞模型,它的措辞能力也很不错。
2. 文本流畅度比拟我把4个大模型写的“一花独放不是春”命题作文内容,给中学语文老师看了,满分60分,可以打到40分以上的程度,整体表现都还不错。
文心一言4.0的文笔流畅度更高,文彩也更好。对付主题的整体理解更加准确,没有什么逻辑问题,可以算得上是一篇文采不错的作文。
通义千问的流畅度也还不错,但是行文手腕不如文心一言老练,比较中规中矩,相对文心一言4.0弱一些。
kimiAI的措辞流畅度跟通义千问类似,但对付主题的理解相对弱一些,文章的整体性相对最弱,有一些段落偏离了题目本身的意思。
天工AI的行文流畅、老练,只是有一两个段落显得有些生搬硬套,前后意思不一致,故意思的是,天工AI表现出了比较强的政治素养,写出来的内容不像高考作文,而更像申论作文,做政务公函类的可以优先考虑天工AI。
打分:
文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐通义千问 ⭐ ⭐ ⭐ ⭐kimi AI ⭐ ⭐ ⭐天工AI ⭐ ⭐ ⭐3. 个性化内容比拟四个AI大模型都能够区分不同的口吻,同时,也能够区分不同的身份角色对付同一件事情所关注的不同的方面。
从8岁女孩的角度来先容一辆新能源车,4个大模型都会把重点放在了车子是用电的、很神奇的描述上,也都用到了小孩子能理解的措辞,用打比方的、形象化的描述来讲这个车子。个中,kimi AI对付角色年事的把握比其他三个大模型轻微弱一点。
而从男企业家的角度来先容新能源车,4个大模型都选择了将新能源车定义为这个企业家自己的产品,从更宏不雅观的角度开始先容这辆车,都表达了对付“未来出行”的创新和积极探索,侧重从技能的角度来先容。
以是在个性化内容方面,4个大模型表现差不多,kimiAI要轻微弱一些。
打分:
文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐通义千问 ⭐ ⭐ ⭐ ⭐ ⭐kimi AI ⭐ ⭐ ⭐ ⭐天工AI ⭐ ⭐ ⭐ ⭐ ⭐4. 逻辑性比拟AI思考逻辑测试,内容是一道经典的公务员考试的行测问题。
4个AI都在很短的韶光内给出精确答案,AI参加公务员考试,估计能秒杀99.9%的人。
在回答的内容中,文心一言给到的思路最详尽、看起来条理也相对最清晰,而天工AI给到的思路最简单,没有描述太多的思考过程,我认为这是相对欠缺的。
AI续写逻辑测试,内容一个故事的续写。
我在故事里设计了3个人物,创造藏宝舆图的小明、他的好朋友小帅、妹妹小美,而故事也是环绕着寻宝的冒险之旅展开,这样,就能稽核AI对付人物的设定,是否符合逻辑,以及故事线是否符合逻辑。
在这个测试中,文心一言的表现相对较好,发挥了较强的对付人物风格的把控能力,能够在故事中写人物对话,对话的风格也符合3个人物的性情设定,故事内容更长,相对更细致。
而通义千问则发挥了更多的创造力,授予了人物更多不同的特点,不过内容更概括简短。
kimi的表现与通义千问相似,也是通过授予人物不同特点来塑造人物,对故事的描述更加细节一些,内容也稍长一点。
天工AI的内容则更加简短,没有把控不同的人物风格、也没有授予人物不同的特点,表现相对是最弱的。
打分:
文心一言4.0 ⭐ ⭐ ⭐ ⭐ ⭐通义千问 ⭐ ⭐ ⭐ ⭐kimi AI ⭐ ⭐ ⭐ ⭐天工AI ⭐ ⭐ ⭐5. 时效性比拟这是我非常非常看重的方面,在内容的创作中,引用时下的热点资讯,对付自媒体运营而言,是一种主要的能力,以是我们会须要时效性强的AI。我用最新、一个月前、三个月前的三个问题来进行测试。
在这一轮测试中,表现最弱的,反而是曾经的搜索巨子百度所开拓的文心一言。
对付2月29日前的最新热点“董宇辉为什么清空微博”这件事情的阐明上,通义千问、kimi、天工三个大模型都给出了精确答案,只有文心一言给出的答案禁绝确。
对付一个月前哈尔滨的热点、三个月前的双十一发卖额,则4个大模型都给出了精确答案。
同时,文心一言、kimi AI都给出了答案所引用的参考资料,但文心一言给的参考资料,紧张都来自百度系自己的内容,紧张是好看视频、百家号,但这里存在一个bug:大措辞模型不能解析视频内容,以是对付董宇辉为什么清空微博这件事情,文心一言虽然根据视频的标题,找到了好看视频中的参考资料,但是由于不能解析视频内容,找到参考资料也看不懂,就像找到一份天书,仍旧只能根据自己的逻辑编造一个回答。
而同样给出了参考资料的kimi AI,对付董宇辉清空微博的事宜,则引用了更新的、也更全面的资讯。它引用了最近1天的内容链接,引用来源包括腾讯网、知乎、澎湃媒体等,搜索来源比文心一言更广。
我在利用kimi AI搜索AI干系的内容时,它能给到的参考资料范围也很广、很精准,除了紧张来源知乎之外,还会给到包括GitHub、公民数据、中国通信院,和一些可以公域访问的数据报告的链接,搜索能力和时效性是比较强的。
其余2个AI大模型,通义千问和天工AI虽然没有给到引用链接,但对3个问题的回答都是准确的。
以是在时效性上,kimiAI最强,它不仅能比较大范围地搜索到干系资讯,并且能给出引用链接,让我们能够直接通过链接,去判断这个内容的有效性、是否精确,通义千问和天工AI相对较弱,由于不能给出引用链接,对我们判断起来相对更困难一点,最弱的是文心一言。
打分:
文心一言4.0 ⭐ ⭐ ⭐通义千问 ⭐ ⭐ ⭐ ⭐kimi AI ⭐ ⭐ ⭐ ⭐ ⭐天工AI ⭐ ⭐ ⭐ ⭐6. 本钱易用性比拟目前,4个AI大模型都能直接通过网页链接访问到,kimiAI、文心一言、天工AI都能在微信小程序里利用,非常方便,通义千问虽然没有官方的小程序入口,但是利用网页端也是比较方便的。在本钱上,除了文心一言4.0须要49.9元的月费,或588.8元的年费,其他3款都是暂时免费。
打分:
文心一言4.0 ⭐ ⭐ ⭐ ⭐通义千问 ⭐ ⭐ ⭐ ⭐ ⭐kimi AI ⭐ ⭐ ⭐ ⭐ ⭐天工AI ⭐ ⭐ ⭐ ⭐ ⭐三、总结在实际利用中,我一样平常会选择文心一言4.0加kimi AI的组合。
用kimiAI搜索资料、拓展内容,它是我目前比较喜好用的搜索办法,在向kimiAI提问时,我会先看它给的回答,然后看它给的参考资料,个中有哪些资料是威信、官方的,比如数据报告等,在这些资料中找一找是否有新的信息。这样的搜索办法,比百度、小红书、微信搜索更加精准快速。
文本创作时,我会方向于用文心一言4.0,它天生的内容更加流畅、符合逻辑,内容质量相对更高。
专栏作家
李子木说运营,"大众年夜众号:李子木说运营,大家都是产品经理专栏作家。自媒体及IP孵化顾问,前互联网大厂品牌项目卖力人,致力于研究企业及个人品牌影响力与获客。
本文原创发布于大家都是产品经理,未经容许,禁止转载
题图来自 Unsplash,基于 CC0 协议
该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/84891.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com