讯飞星火抢先实测！股价暴涨的科大讯飞真比百度强吗？

消费 >

云掌财经花朵财经

花朵财经原创

(相关资料图)

作者 | 刘元

编辑 | 铎子

在百度文心一言打响了国内AI大模型“第一枪”后，360、阿里、华为、知乎乃至中国电信、中国联通都纷纷表态要推出自己的大模型。

一场混战，已不可避免。

4月28日，凭借AI大模型概念，年内股票涨幅达到84.59%的科大讯飞，也悄然开启了旗下认知大模型“讯飞星火”的内测，拿到邀请的花朵财经，在第一时间对其进行了初步测试。现将测试结果分享出来，赶在其5月6日正式发布之前，给大家一个更直观的感受。

为公平起见，本次测试加入了文心一言和Chatgpt做比较。

注：图片可点击放大查看

问题一

写一个介绍大模型技术的PPT提纲

讯飞星火

文心一言

ChatGpt

这是文心一言在主页建议大家提的问题，也是“社畜们”很关心的。

从回复看，讯飞星火和文心一言都提到了“可解释性和透明性”、“多模态融合”等专业名词，似乎更有深度，Chatgpt则更像是针对大众的科普，内容更浅显易懂。

逻辑方面，都没有什么问题，无论选择哪一个都可以丰富填充内容后，制作成一个完整介绍大模型技术的PPT。

问题二

请续写《红楼梦》中林黛玉大闹天宫的故事

讯飞星火

文心一言

ChatGpt

这个题目显然是有些无厘头，不过回答的都还是像模像样。

讯飞星火理解了“续写”的意思，没有在林黛玉为什么会大闹天宫上做纠结，直接给出了随后的故事，林黛玉回到人间成为诗人，也符合原小说的人物设定。

文心一言则更有戏剧性，不但在续写前试图给出林黛玉大闹天宫的合理性，还让孙悟空也参与了进来，帮助她完成这一壮举。不过随后真正属于续写的部分，过于简单平淡了。

Chatgpt的行文更有小说的味道，但显然没有理解什么是“续写”，打算闹天宫为什么会去了凤姐的院子，实在是令人费解。

问题三

笼子里有一些鸡和兔子，从上面数一共有35个头，从下面数有94只脚，请问鸡和兔子各有几只？

讯飞星火

文心一言

ChatGpt

记载在1500年前《孙子算经》里的，鸡兔同笼的原题。

讯飞星火和Chatgpt解题思路一样，并都给出了完整的解题步骤，但是讯飞星火在简化方程后，将“94-2y =70”这个简单的等式给算错了，导致最终给出了一个错误的答案。

文心一言没有使用方程式来求解，解题思路更烧脑一些，不过答案是正确的。

问题四

帮忙对个下联，上联是：观音山上观山水

讯飞星火

文心一言

ChatGpt

今年五一，相信很多人都会出去走走，这个上联来自广东东莞的观音山景区，悬赏70万元征集下联已经很多年了。

三个大模型的下联，显然都拿不到这份奖金。不过其中，讯飞星火和文心一言的下联，都有意识的使用了叠字，看来是领会了上联中暗藏的玄机，Chatgpt则无视了。

因为对第一个答案不满意，分别留言让它们“再换一个”。

这时候，只有Chatgpt联系上文，明白了是让它换一个答案，讯飞星火和文心一言则都是自说自话的，给出了另一个完整的“对联”，虽然也有持续对话的能力，但是对之前对话的理解，出了一些偏差。

问题五

从广州出发到南京玩三天后回来，请安排一下行程，包括往返乘坐什么交通工具，去哪些景点。

讯飞星火

文心一言

ChatGpt

提问中特别提到要包括往返交通工具，但被文心一言选择性忽略了，只说了去时要坐高铁，怎么回来没有提及，同时也算错了高铁广州到南京的时间，并不是“3-4小时”，而是要7个小时，最早一班高铁到达南京也要到下午1点半了。

这一点上，讯飞星火也同样搞错了，广州到南京坐高铁，并没有车次能在“上午10点左右”到达。南京返回广州，也没有晚上开出的高铁。

比较起来，Chatgpt的回答就有点“鸡贼”了，往返都是很笼统的说要“乘坐飞机或高铁”，没有对时间作出判断，也就避免了出错。

具体景点安排上，讯飞星火更具合理性，上午下午晚上去哪都有考虑，并且尽量避免了重复，文心一言的行程中，夫子庙则出现了四次。Chatgpt的安排则显得很不走心，罗列了一堆景点，最后把选择权又还给了提问者。

问题六

某人在看一幅肖像画。有人问他：“你在看谁的像？”他回答说：“我没有兄弟姐妹，而这男子的父亲是我的父亲的儿子。”问：这人在看谁的像？

讯飞星火

文心一言

ChatGpt

这是一个测试逻辑能力的题目，三个大语言模型都给出了错误的回答。

其中文心一言和Chatgpt的答案相同，都是在看自己的画像，讯飞星火推理过程和两者一样，却给出了一个与推理结果不相干的答案，犯了和鸡兔同笼类似的错误，不知道是不是因为还在小范围内测的缘故。

问题七

淄博烧烤爆火，帮他们想三句广告语。

讯飞星火

文心一言

ChatGpt

总体来看各有千秋，国产的两个大模型都联想到了用食材新鲜做卖点，对中国美食了解更深。讯飞星火比文心一言的答案，内容更丰富。

问题八

制作网页版俄罗斯方块

讯飞星火

文心一言

ChatGpt

相比文心一言给出的39行代码，讯飞星火只提供了实现的思路，并没有动手去完成的意思。Chatgpt相当于是两者的综合，在分步骤讲解思路的同时，也同时给出了代码。

能力有限，花朵财经无法对其正确与否作出测试，不过比较下来，在这方面讯飞星火能力还是有欠缺的。

同样的关于绘图的测试，也因为讯飞星火不具备相应的能力无法作出比较。

综合来看，讯飞星火在语言的理解和应用方面，与文心一言难分伯仲，推理、计算、编程等能力不如文心一言。另外，不知是不是内测刚开始，接入人数有限的缘故，讯飞星火的反应速度远远超过文心一言，问题提出后，回复马上就在页面上呈现出来了，响应级别在毫秒级，而文心一言的回复有明显的停顿。

讯飞星火可以用语音回复图源：讯飞星火

此外，作为语音识别领域的龙头，讯飞星火的对话框不出意外的添加了语音播放的图标，可以将回答用语音形式呈现出来，配合讯飞语音输入法的使用，可以在一定程度上实现真正的人机对话，5月6日，讯飞星火认知大模型正式发布时，相信这会是现场的一大亮点。

据360总裁周鸿祎判断，未来中国不会只有一个大模型，每个政府部门、企业，甚至个人都将拥有专有GPT，只要坚持长期主义，不悲观放弃，也不盲目乐观、自吹自擂，相信很快会迎头赶上。

*本文基于公开资料撰写，仅作信息交流之用，不构成任何投资建议

（花朵财经观察出品）

标签：

THE END

广告、内容合作请点击这里寻求合作