编辑:[db:作者] 时间:2024-08-25 02:45:06
作为互联网巨子,腾讯动作不大,让人觉得成了大模型缺席者,事实上,腾讯开拓了混元大模型,在腾讯部分产品里,正在发挥浸染。
由于腾讯宣扬力度不强,以是用户很难把稳到,而前两天,腾讯终于带着他们的 AI 助手“元宝”强势来了。
就产品功能来说,元宝与其他的 AI 助手并没有什么差异,依然是对话界面+各种智能体。
当然了,险些所有的 AI 助手都是如此,主流的 AI 助手里,只有天工开物搞了一个音乐创作的功能,可惜体验很一样平常。
信息搜索
回到腾讯元宝上来,按照腾讯官方说法,腾讯元宝接入了微信搜一搜、搜狗搜索、内容涵盖微信公众号文章,主打一个内容全面,信息准确。
老狐试着用他们搜索近期关注的一个互联网话题——抖音电商 2024 年的 GMV 还值得看好吗?
元宝天生的回答,逻辑清晰,开头解释了预测的 GMV 数据,以及关键的兴趣电商与货架电商增长比拟,也提到了抖音电商的市场策略和外部环境的竞争。
可以把稳到,文章一共引用了 8 篇文章作为参考,来源比较多样,从公众年夜众号到新浪新闻、网易新闻乃至还有《财富》杂志,在天生的结果里会标注资料来源,主要数据能迅速找到出处。
在天生结果末端,供应了更多干系文章,基本来自"大众年夜众号。
比较于引用资料来说,实在文末的文章质量更高,个中也包含可引用的干系数据,但它们没有被元宝收纳到“引用资料”中。
为了见到自己的文章涌如今引用资料里,老狐找了曾写过的选题,结果第 7 条和第 8 条是科技狐揭橥在不同平台的同一篇文章。
类似的情形在老狐测试时重复涌现,优化还不足。
大模型这类涉及到问答形式,须要 AI 引用数据资料来天生回答的模式,回答的质量取决于引用资料的质量。
腾讯元宝背后有腾讯的全体生态,尤其是微信公众年夜众号,后者有大量团队和个人在上面发布高质量文章,仅就笔墨内容来说,这是知乎、小红书比不了的。
但是……没错,老狐要说但是。
元宝在天生答案的末端,附上的内容都是笔墨,没有视频内容,形式上不足丰富,尤其是在特定的问题上,视频能呈现出更好的效果。
比如面对“佛跳墙怎么做”这个问题,文心一言会供应视频内容,个中还有“老饭骨”明星大厨制作的视频,而元宝只有笔墨。
这须要腾讯后续升级优化,比如引入视频号的短视频,或引入其他平台如 B站、快手的视频内容。
文档总结
文档总结功能,现在成了大模型内卷的方向之一,尤其是笔墨长度。
今年 3 月中旬,Kimi 宣告支持文档最高字数达到 200 万字,没过多久,通义千问就把字数上限提升到 1000 万字。
可能有人会质疑上百万字数无用,然而,很多企业一份英文财报字数就可能超过 100 万。
腾讯说元宝能一次性解析最多 10 个 PDF/word/tet 文件,一次性阅读一本书不成问题。
先来看看普通的文章总结,老狐拿"大众年夜众号的文章做了测试,结果让人有些失落望。
总结里提到 SU7 的销量超出预期,以及雷军设定新的发卖目标,干系数据原文有提到,但总结却没有列出来。
我甩给它小米的财报 PDF 连接,让它帮我找出关键数据,这一点,元宝完成得非常不错。
连续增加难度,我同时向它扔了蔚来、小鹏和空想三家车企的去年英文版年报的链接,让它整理一些关键数据。
它变成了文档提取失落败,多次考试测验依然无果。
于是我又特地下载三份年报到本地,上传数据让它读取。
这回倒是不会提取失落败,天生了干系数据,并且用表格进行比拟,但三家车企数据雷同。
老狐预测缘故原由是三篇财报字数靠近 350 万,超过了元宝的笔墨长度限定,于是默认利用了末了上传的小鹏财报数据。
用 Kimi 和通义千问来总结,也无法成功,Kimi 提示“超过对话长度”。
不过,改成只总结蔚来的年报时,元宝精确引用了蔚来的数据,但却犯了一个致命缺点,把 RMB 和 Dollar 弄混了。
元宝总结的数据
蔚来财报截图
老狐圆不回来了,可能元宝的英文不佳吧。
值得一提的是,在微信里打开好友发过来的 word 或 PDF 文档,可以选择用元宝打开,通过元宝小程序总结文档内容。
而在企业微信里,暂时还不支持元宝打开文档。
谁是真实的办公软件,谁是虚假的办公软件一览无余。
AI 写作
AI 写作也是如今大模型必提的功能之一,宣扬的文案、策划等场景,大模型已经能够知足。至于技能哀求更高、代替老狐事情的长文写作能力,大模型已经很少提及。
先来看一个比较普通的写作场景——写周报,这是我给的 prompt:
“帮我写一份上周的周报。我周一写完了之前没写完的视频稿,周二,周三,周四写了两篇"大众年夜众号稿子,并体验了一款大模型产品,周五做了测评并写了一部分文稿”
这是元宝天生的答案。
Prompt 里只有大略的事情内容,天生的周报丰富了细节,比如“与视频团队沟通”、“撰写过程中看重内容的深度和广度”。
整体来说,这份周报内容写得还不赖,完成了大部分框架,根据实际情形再做调度,便足够搪塞咱们事情中的须要。
其余我让元宝完成一份策划方案,比如公司团建活动,给出 prompt 为:
“策划一场公司团建活动,参与人数为20人,地点就在公司,韶光是下午一点半到六点半,活动内容包括近期事情总结,互动游戏。”
天生的活动策划案第一项是事情总结,安排的三个互动游戏适宜室内,游戏道具也有提及。
只不过第三条“心得分享与互换”,在我看来没有必要,但这部分可能是大多企业结束团建的仪式。
这份策划方案大家认为如何?老狐认为还不错。
逻辑打算和知识
在磨练大模型的逻辑能力时,最常用的题目类型是鸡兔同笼求解,不过类似问题已经难不倒普通的大模型,元宝同样如此。
提高难度,老狐用一道高考仿照题来磨练它,原题是这样的。
上传图片让元宝识别题目,然而识别涌现缺点。
于是老狐又手动输入题目,终极打算出一个……缺点答案!
小伙伴也别以为元宝打算能力差,事实上,这道题我之前用文心一言、Kimi、通义千问、豆包都打算过(且都无法直接用图片提取题目笔墨)。
元宝,文心一言、Kimi、豆包利用不等式知识解题是精确的思路,但是原题须要变通,将 36=4(a+b) 带入进去提取常数,大模型显然没有这个创造力,纷纭选择硬解,集体翻车。
通义千问打算出了精确答案,不过没用不等式,而是通过微积分知识,求导确定极值。
通义千问这波是拿宰牛刀杀鸡。
我调度了 prompt,让它用不等式知识打算,看着它输出了 3 分钟打算过程,中途还变动打算步骤,末了变成了系统超时。
能否制造并利用工具是人与动物的差异之一,而能否灵巧利用知识,是人与机器的差异。
知识问题在去年大模型爆发初期常常见到,还闹出了“林黛玉倒拔垂杨柳”的笑话。现如今,这个 Bug 已经得到优化,元宝在面对这类问题能轻松避开。
老狐用国外的文学知识对它测试,它也能精确指出个中的缺点。
不过有些陷阱它还是无法避免,比如我在周五问元宝今年多特蒙德为何夺得欧冠冠军,它说得条理分明,然而比赛是周日凌晨才进行。
不过当比赛结束,再问它多特夺冠,它已经能指出个中问题所在。
大模型知识问题须要大量资料支撑,在事发前,没有任何资料,它可能就会胡言乱语。
大模型就像是三体人,与人类的诡计多端比起来,还是纯挚了些。
AI 作图
在腾讯的宣扬稿里,特意提到元宝作画的能力。
实际上,如果给到的 prompt 提到的主角单一,并给到环境描写,它能天生信息准确的图片。
一旦主角有两位,包含不同的细节,元宝天生的图片就对不上 prompt 了。
此外,在某些场景下,天生的人物面部会很胆怯。
这种环境下选择重复输出,能得到一张边幅姣美的美女照片,但眼神依旧怪异,而且伞骨歪斜。
老狐进行了多次测试后创造,如果人物是正面,且脸部霸占画面较大的面积,元宝对人物面部刻画会更准确,一旦角度是斜侧,或者人物面部较小时,面部就会涌现比例失落调,尤其是后一种环境。
这不是元宝一个大模型的问题,其他大模型也会如此。
不过有些大模型在处理这类问题时,要讨巧得多,要么选择展示人物背面,避免脸部的刻画,要么就直接正脸,给侧脸是去世活不会给的。
在他们面前,元宝、豆包像个耿直 boy,画人物面部几率要比其他几款大模型高得多。
反过来,耿直的元宝也更“听话”,画面与 prompt 更契合,用户更随意马虎得到自己想要的画面。
总结
以上便是关于腾讯元宝的大略体验,在内容方面,它与微信生态结合更紧密,能引用更多微信"大众年夜众号内容,这是元宝独一无二的上风。
作为一个 AI 助手,元宝可能最得当微信"大众年夜众号创作者,比如老狐。
但元宝劣势明显,短缺短视频内容支撑,内容形态不足丰富。
不过最令老狐印象深刻的还是元宝在作画时的耿直,照着用户的 prompt 天生,不惜暴露自己的缺陷,少了文心一言、通义千问的“调皮”。
一边是元宝、豆包听话但有缺点的大模型,另一边是文心一言会隐蔽缺陷但实行不到位的大模型,大家以为哪个好?
参考资料:
腾讯元宝、文心一言、豆包、Kimi、通义千问等App。
编辑:木易
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/85778.html
上一篇:若何拍摄出高品格产品图片?
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com