文心大模型4.0实测：七个领域答案让人叹服，大模型“真香定律”再次成真

xinfeng335 2023-10-26 37

默认

摘要： 　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！　　2023年下半年，大模型行业继续飞速发展。其中，万众期待的文心大模型4.0终于面世，百度创始人、董...

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（图片来源网络，侵删）

　　2023年下半年，大模型行业继续飞速发展。其中，万众期待的文心大模型4.0终于面世，百度创始人、董事长兼首席执行官李彦宏于10月17日正式发布该产品。在产品开启内测后，该款产品的真实一面逐渐展示在众人眼前。

　　笔者实测后发现，文心大模型4.0的表现可谓上乘，其在大幅超越前作3.5版本的同时，也在部分领域超出了GPT-4的能力。

　　在页面显示方面，文心大模型4.0和前作没有太多区别。一般而言，界面一致性所起到的作用是维持较为合理的用户体验。这种设置有助于用户更好地熟悉界面，和适应新产品。

　　今天，笔者着重挑选了七则最有代表性的问答，以考核文心大模型的质量。这七则测试基本涵盖了用户对大模型日常使用的刚需，整体上，它已可以胜任包括学生、职场人士、程序员、文案写作者甚至诗歌爱好者的需求。

　　第一则：古诗词

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　从文心大模型4.0给出的结果看，它自动添加了诗歌标题。和前者对比后，后者的诗词更加优美、意象更加深远，颇有引入入胜的感觉。

　　其中，“飞鸟南穿越、行人步履匆”两句用得比较巧妙，说明大模型真正理解了诗词意境。在最后一句点睛之笔中，进化版给出的答案更加透彻，而反观3.5的诗词表达显得较为苍白。

　　第二则：数学能力

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　在数学能力上，可以看到新版的明显进步——它已给出了正确答案并带有逻辑推理。之前，一些大模型在处理基本数学题时是有瑕疵的，经常给出错误的答案。

　　而在文心大模型4.0里，正确的答案显然对学生的日常使用是利好的，这对帮助他们提高学习效率，减少因错误答案导致的误导和混淆有所帮助。同时，这也增强了学生对该工具的信任和依赖，更有利于他们在学习过程中的应用与探索。

　　第三则：“玩梗”能力和幽默度

　　这里我们键入李佳琦在直播间的梗。

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　可以看到，文心大模型4.0在这个领域进步还是肉眼可见的。在结果上，后作更加善于捕捉和解读网络流行语和热门梗，能够更准确地理解用户的幽默意图，从而给出更加贴切、有趣的回应。

　　在后续，我们还对文心大模型4.0使用了其他的段子，也得出了同样的结果，甚至有些能让人联想到更多笑点。作为大模型产品而言，幽默度上的提升是一项用户体验的加分项，也能让用户在与其交互时能够获得更加有趣、轻松的体验。

　　第四则：字数扩展

　　这项功能目前对于创作者和AI用户而言是刚需，无论在报告写作还是日常文稿中，它的使用频次都是最高的。我们用一则测验来看看效果如何。

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　可以看到，文心大模型4.0在处理这项输出时，语料库更加丰富。后作给出了保持思想进步的具体做法，可见它已经理解了用户的意图和语境。另外，从文法上，后作表现得更流畅、更有逻辑性。对比3.5所生成的“硬巴巴”的文字，后者更有可读性和吸引力。

　　第五则：代码鉴别能力

　　基本的代码书写能力目前在各类大模型中属“标配”，不过在鉴别能力上，却天差地别。这里用数据库SQL语言测试一下文心大模型4.0的能力。

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　可以看到，文心大模型4.0对这段代码进行了详细解答，并标注了该语句可能的潜在意图。这样的功能实际意义是，“授人以鱼”和“授人以渔”的区别。至少，目前在很多公司中，对代码语言解析能力是极为迫切的。

　　第六则：逻辑推理

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　这则测试是非常明显的。

　　从结果上看，文心大模型3.5并没有搞清兄弟之间的逻辑关系。而文心大模型4.0则理解了这句话的语境，并给出了逻辑推导过程。这说明，后者已经可以识别、理解实体、概念和关系的知识了。

　　第七则：百科类测验

　　（文心大模型3.5结果）

　　（文心大模型4.0结果）

　　这则测验中，文心大模型4.0的结果更加简练。它省略了一些无关痛痒的解释，更加直白地阐述了问题所指。识别出了氧化亚铁、三氧化二铁的化学分子式，并依据化学分子式给出了答案。而反观3.5版本中的答案，可能并不知道四氧化三铁其中包含的两种物质的来源。

　　因为篇幅所限，仅列举了上述七则Case。就结果而言，文心大模型4.0的效果相对于3.5版本有了巨大提升。至少对于百度文心大模型自身而言，这种提升是显而易见的。

　　在理解、生成、逻辑、记忆这四大能力中，文心大模型4.0初步具备了识别意图、换位思考甚至画龙点睛的能力。据了解，该款产品还在不断迭代之中。不过，可以想象的是，在不断优化下，文心大模型4.0将在大模型领域中杀出重围。

文章版权及转载声明

作者:xinfeng335本文地址：http://www.mdmgjx.com/post/148.html发布于 2023-10-26
文章转载或复制请以超链接形式并注明出处ZBLOG

打赏

海报

阅读

文心大模型4.0实测：七个领域答案让人叹服，大模型“真香定律”再次成真

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

闪婚总裁契约妻漫画-闪婚总裁契约妻漫画人物介绍

亚瑟王传奇-亚瑟王传奇 音乐剧

邂逅亿万大人物txt-邂逅亿万大人物连翘皇

瘦身游泳课12话无遮瑕-瘦身游泳课62话

他是病娇灰姑娘免费-他是病娇灰姑娘免费观看

吸血恋人-魔鬼恋人第一季动漫免费观看完整版

无修版动漫的简单介绍

重生之预言女王拽翻天-重生之预言女王拽翻天百度云

亚瑟王传奇-亚瑟王传奇音乐剧