本文作者:xinfeng335

文心大模型4.0实测:七个领域答案让人叹服,大模型“真香定律”再次成真

xinfeng335 2023-10-26 37
文心大模型4.0实测:七个领域答案让人叹服,大模型“真香定律”再次成真摘要:   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!  2023年下半年,大模型行业继续飞速发展。其中,万众期待的文心大模型4.0终于面世,百度创始人、董...

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

文心大模型4.0实测:七个领域答案让人叹服,大模型“真香定律”再次成真
(图片来源网络,侵删)

  2023年下半年,大模型行业继续飞速发展。其中,万众期待的文心大模型4.0终于面世,百度创始人、董事长兼首席执行官李彦宏于10月17日正式发布该产品。在产品开启内测后,该款产品的真实一面逐渐展示在众人眼前。

  笔者实测后发现,文心大模型4.0的表现可谓上乘,其在大幅超越前作3.5版本的同时,也在部分领域超出了GPT-4的能力。

  在页面显示方面,文心大模型4.0和前作没有太多区别。一般而言,界面一致性所起到的作用是维持较为合理的用户体验。这种设置有助于用户更好地熟悉界面,和适应新产品。

  今天,笔者着重挑选了七则最有代表性的问答,以考核文心大模型的质量。这七则测试基本涵盖了用户对大模型日常使用的刚需,整体上,它已可以胜任包括学生、职场人士、程序员、文案写作者甚至诗歌爱好者的需求。

  第一则:古诗词

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  从文心大模型4.0给出的结果看,它自动添加了诗歌标题。和前者对比后,后者的诗词更加优美、意象更加深远,颇有引入入胜的感觉。

  其中,“飞鸟南穿越、行人步履匆”两句用得比较巧妙,说明大模型真正理解了诗词意境。在最后一句点睛之笔中,进化版给出的答案更加透彻,而反观3.5的诗词表达显得较为苍白。

  第二则:数学能力

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  在数学能力上,可以看到新版的明显进步——它已给出了正确答案并带有逻辑推理。之前,一些大模型在处理基本数学题时是有瑕疵的,经常给出错误的答案。

  而在文心大模型4.0里,正确的答案显然对学生的日常使用是利好的,这对帮助他们提高学习效率,减少因错误答案导致的误导和混淆有所帮助。同时,这也增强了学生对该工具的信任和依赖,更有利于他们在学习过程中的应用与探索。

  第三则:“玩梗”能力和幽默度

  这里我们键入李佳琦在直播间的梗。

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  可以看到,文心大模型4.0在这个领域进步还是肉眼可见的。在结果上,后作更加善于捕捉和解读网络流行语和热门梗,能够更准确地理解用户的幽默意图,从而给出更加贴切、有趣的回应。

  在后续,我们还对文心大模型4.0使用了其他的段子,也得出了同样的结果,甚至有些能让人联想到更多笑点。作为大模型产品而言,幽默度上的提升是一项用户体验的加分项,也能让用户在与其交互时能够获得更加有趣、轻松的体验。

  第四则:字数扩展

  这项功能目前对于创作者和AI用户而言是刚需,无论在报告写作还是日常文稿中,它的使用频次都是最高的。我们用一则测验来看看效果如何。

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  可以看到,文心大模型4.0在处理这项输出时,语料库更加丰富。后作给出了保持思想进步的具体做法,可见它已经理解了用户的意图和语境。另外,从文法上,后作表现得更流畅、更有逻辑性。对比3.5所生成的“硬巴巴”的文字,后者更有可读性和吸引力。

  第五则:代码鉴别能力

  基本的代码书写能力目前在各类大模型中属“标配”,不过在鉴别能力上,却天差地别。这里用数据库SQL语言测试一下文心大模型4.0的能力。

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  可以看到,文心大模型4.0对这段代码进行了详细解答,并标注了该语句可能的潜在意图。这样的功能实际意义是,“授人以鱼”和“授人以渔”的区别。至少,目前在很多公司中,对代码语言解析能力是极为迫切的。

  第六则:逻辑推理

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  这则测试是非常明显的。

  从结果上看,文心大模型3.5并没有搞清兄弟之间的逻辑关系。而文心大模型4.0则理解了这句话的语境,并给出了逻辑推导过程。这说明,后者已经可以识别、理解实体、概念和关系的知识了。

  第七则:百科类测验

  (文心大模型3.5结果)

  (文心大模型4.0结果)

  这则测验中,文心大模型4.0的结果更加简练。它省略了一些无关痛痒的解释,更加直白地阐述了问题所指。识别出了氧化亚铁、三氧化二铁的化学分子式,并依据化学分子式给出了答案。而反观3.5版本中的答案,可能并不知道四氧化三铁其中包含的两种物质的来源。

  因为篇幅所限,仅列举了上述七则Case。就结果而言,文心大模型4.0的效果相对于3.5版本有了巨大提升。至少对于百度文心大模型自身而言,这种提升是显而易见的。

  在理解、生成、逻辑、记忆这四大能力中,文心大模型4.0初步具备了识别意图、换位思考甚至画龙点睛的能力。据了解,该款产品还在不断迭代之中。不过,可以想象的是,在不断优化下,文心大模型4.0将在大模型领域中杀出重围。

文章版权及转载声明

作者:xinfeng335本文地址:http://www.mdmgjx.com/post/148.html发布于 2023-10-26
文章转载或复制请以超链接形式并注明出处ZBLOG

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享