花朵财经原创
(相关资料图)
作者 | 刘元
编辑 | 铎子
在百度文心一言打响了国内AI大模型“第一枪”后,360、阿里、华为、知乎乃至中国电信、中国联通都纷纷表态要推出自己的大模型。
一场混战,已不可避免。
4月28日,凭借AI大模型概念,年内股票涨幅达到84.59%的科大讯飞,也悄然开启了旗下认知大模型“讯飞星火”的内测,拿到邀请的花朵财经,在第一时间对其进行了初步测试。现将测试结果分享出来,赶在其5月6日正式发布之前,给大家一个更直观的感受。
为公平起见,本次测试加入了文心一言和Chatgpt做比较。
注:图片可点击放大查看
写一个介绍大模型技术的PPT提纲
讯飞星火
文心一言
ChatGpt
这是文心一言在主页建议大家提的问题,也是“社畜们”很关心的。
从回复看,讯飞星火和文心一言都提到了“可解释性和透明性”、“多模态融合”等专业名词,似乎更有深度,Chatgpt则更像是针对大众的科普,内容更浅显易懂。
逻辑方面,都没有什么问题,无论选择哪一个都可以丰富填充内容后,制作成一个完整介绍大模型技术的PPT。
请续写《红楼梦》中林黛玉大闹天宫的故事
讯飞星火
文心一言
ChatGpt
这个题目显然是有些无厘头,不过回答的都还是像模像样。
讯飞星火理解了“续写”的意思,没有在林黛玉为什么会大闹天宫上做纠结,直接给出了随后的故事,林黛玉回到人间成为诗人,也符合原小说的人物设定。
文心一言则更有戏剧性,不但在续写前试图给出林黛玉大闹天宫的合理性,还让孙悟空也参与了进来,帮助她完成这一壮举。不过随后真正属于续写的部分,过于简单平淡了。
Chatgpt的行文更有小说的味道,但显然没有理解什么是“续写”,打算闹天宫为什么会去了凤姐的院子,实在是令人费解。
笼子里有一些鸡和兔子,从上面数一共有35个头,从下面数有94只脚,请问鸡和兔子各有几只?
讯飞星火
文心一言
ChatGpt
记载在1500年前《孙子算经》里的,鸡兔同笼的原题。
讯飞星火和Chatgpt解题思路一样,并都给出了完整的解题步骤,但是讯飞星火在简化方程后,将“94-2y =70”这个简单的等式给算错了,导致最终给出了一个错误的答案。
文心一言没有使用方程式来求解,解题思路更烧脑一些,不过答案是正确的。
帮忙对个下联,上联是:观音山上观山水
讯飞星火
文心一言
ChatGpt
今年五一,相信很多人都会出去走走,这个上联来自广东东莞的观音山景区,悬赏70万元征集下联已经很多年了。
三个大模型的下联,显然都拿不到这份奖金。不过其中,讯飞星火和文心一言的下联,都有意识的使用了叠字,看来是领会了上联中暗藏的玄机,Chatgpt则无视了。
因为对第一个答案不满意,分别留言让它们“再换一个”。
这时候,只有Chatgpt联系上文,明白了是让它换一个答案,讯飞星火和文心一言则都是自说自话的,给出了另一个完整的“对联”,虽然也有持续对话的能力,但是对之前对话的理解,出了一些偏差。
从广州出发到南京玩三天后回来,请安排一下行程,包括往返乘坐什么交通工具,去哪些景点。
讯飞星火
文心一言
ChatGpt
提问中特别提到要包括往返交通工具,但被文心一言选择性忽略了,只说了去时要坐高铁,怎么回来没有提及,同时也算错了高铁广州到南京的时间,并不是“3-4小时”,而是要7个小时,最早一班高铁到达南京也要到下午1点半了。
这一点上,讯飞星火也同样搞错了,广州到南京坐高铁,并没有车次能在“上午10点左右”到达。南京返回广州,也没有晚上开出的高铁。
比较起来,Chatgpt的回答就有点“鸡贼”了,往返都是很笼统的说要“乘坐飞机或高铁”,没有对时间作出判断,也就避免了出错。
具体景点安排上,讯飞星火更具合理性,上午下午晚上去哪都有考虑,并且尽量避免了重复,文心一言的行程中,夫子庙则出现了四次。Chatgpt的安排则显得很不走心,罗列了一堆景点,最后把选择权又还给了提问者。
某人在看一幅肖像画。有人问他:“你在看谁的像?”他回答说:“我没有兄弟姐妹,而这男子的父亲是我的父亲的儿子。”问:这人在看谁的像?
讯飞星火
文心一言
ChatGpt
这是一个测试逻辑能力的题目,三个大语言模型都给出了错误的回答。
其中文心一言和Chatgpt的答案相同,都是在看自己的画像,讯飞星火推理过程和两者一样,却给出了一个与推理结果不相干的答案,犯了和鸡兔同笼类似的错误,不知道是不是因为还在小范围内测的缘故。
淄博烧烤爆火,帮他们想三句广告语。
讯飞星火
文心一言
ChatGpt
总体来看各有千秋,国产的两个大模型都联想到了用食材新鲜做卖点,对中国美食了解更深。讯飞星火比文心一言的答案,内容更丰富。
制作网页版俄罗斯方块
讯飞星火
文心一言
ChatGpt
相比文心一言给出的39行代码,讯飞星火只提供了实现的思路,并没有动手去完成的意思。Chatgpt相当于是两者的综合,在分步骤讲解思路的同时,也同时给出了代码。
能力有限,花朵财经无法对其正确与否作出测试,不过比较下来,在这方面讯飞星火能力还是有欠缺的。
同样的关于绘图的测试,也因为讯飞星火不具备相应的能力无法作出比较。
综合来看,讯飞星火在语言的理解和应用方面,与文心一言难分伯仲,推理、计算、编程等能力不如文心一言。另外,不知是不是内测刚开始,接入人数有限的缘故,讯飞星火的反应速度远远超过文心一言,问题提出后,回复马上就在页面上呈现出来了,响应级别在毫秒级,而文心一言的回复有明显的停顿。
讯飞星火可以用语音回复 图源:讯飞星火
此外,作为语音识别领域的龙头,讯飞星火的对话框不出意外的添加了语音播放的图标,可以将回答用语音形式呈现出来,配合讯飞语音输入法的使用,可以在一定程度上实现真正的人机对话,5月6日,讯飞星火认知大模型正式发布时,相信这会是现场的一大亮点。
据360总裁周鸿祎判断,未来中国不会只有一个大模型,每个政府部门、企业,甚至个人都将拥有专有GPT,只要坚持长期主义,不悲观放弃,也不盲目乐观、自吹自擂,相信很快会迎头赶上。
*本文基于公开资料撰写,仅作信息交流之用,不构成任何投资建议
(花朵财经观察出品)
标签: