嗯,我从「文心一言」发布会回来了_一言_发布会_评测

昨天,百度正式发布了AI产品「文心一言」。据说发布会现场是录播,网上看直播的观众也超过了百万级别。但市场的反应不一:有股价跳水的,有V我50的,真实的情况,我们看看作者自己的亲身经历。

昨天,百度正式发布了AI产品「文心一言」。据说发布会现场是录播,网上看直播的观众也超过了百万级别。但市场的反应不一:有股价跳水的,有V我50的,真实的情况,我们看看作者自己的亲身经历。

从我家到百度科技园,我单程需要跨越 66 公里,花费 3 个小时。去现场参加发布会绝对不是第一时间领略「文心一言」魅力的最佳方案。

实际上,在现场可以看到的内容,和直播的内容基本一致。在现场能看到的也是录屏演示,没有额外「加餐」。

当我回到家安顿下来再打开电脑,已经有少量真实截图,以及一个简单的评测出来了。实际上,今晚开始确实有一批媒体会首先拿到邀请码,推出相对简单的评测。而未来几天,预计会有更多人拿到邀请码,相信也会有更深度的评测出现。

我观察到一个挺有意思的现象,有一两个微博上的娱乐营销号,在发布会刚结束,就发布了相信是来自「文心一言」的截图。另一些则是滥竽充数,比如我看到有个博主说是「文心一言」的截图,实际上来自另一款产品「写作猫」。

展开全文

这提醒了一个之前我没有注意到的可能,就是对 AI 聊天画面造假。例如有一张 ChatGPT 的问答,展示了它可以正确识别「文心一言邀请码:KFCV50」这个段子的含义。然而我实际拿去测试了 GPT-3.5、GPT-4 和必应,结果是不论是否联网,图里的回答都不可复现。

从技术上,对网页截图造假非常容易,只要打开浏览器的 F12 开发者工具就可以修改相应段落,不需要 P 图。作为对应,「文心一言」的界面样式在发布会上已经公布,而其真实的界面截图都带有唯一的浮水印。

差评做的评测也许是第一个完整的「文心一言」评测,其中测试了发布会没提到的编程功能,以及以表格方式呈现结果。这说明「文心一言」的相关「涌现」能力其实已经展露,但因为算力差距摆在那里,不能预期它发挥跟 ChatGPT 一样稳定,出现不可控结果是完全有可能的。

在 ChatGPT 以及新必应搜索刚刚引起社会关注时,很多关于它「发疯」或出现滑稽结果的报道,一度让人怀疑它的实际能力。但当大家逐渐用上之后,有些担心自然而然地消失了。我觉得,一个对读者有意义的评测,或许不应该聚焦于如何让生成式 AI 突破禁锢或「发疯」,而是看它可不可以完成一些实际任务,可以真正作为生产力工具使用。

至少目前已经可以证明:这次发布的「文心一言」并不害怕真机评测。在发布会使用预录视频,或许只是想让发布会的流程更顺畅一些。

整场活动大多都是演讲,讲的内容或多或少之前都有线索可循。像我昨天预测的可能会用到百度自家的知识图谱,结果今天发现果然如此,官方说法叫「知识增强」。而所有的发言其实都围绕着一个目的,就是「预期管理」。

鉴于 OpenAI 的技术实力即使在硅谷范围里也是遥遥领先,没有任何理由要求「文心一言」刚发布就赶上乃至超越 ChatGPT。整场发布会的很多地方都希望大家能真实认识到这一点,正如我昨天所说:「跟 ChatGPT 比了不行是意料之中的,如果有地方胜出,那就是意外收获。」

另一个需要「管理」的预期,或许是「文心一言」的响应速度。预录视频可以说明两个问题:

所以,随着发布会的进行,百度股价跌一点是完全在预期之中的,甚至可以说「小跌算涨」。发布会采用录播可能进一步把当天的股价压了点,但「文心一言」其实并不害怕就这样接受实测。所以稍给一点时间,股价就有涨回来的空间。

美股开盘后,百度 ADR 走势如下 ↓

最后,你问我能不能拿到邀请码也做个评测?

我哪知道啊(微笑)

题图:使用「文心一言」作画时,它会让你精准给出 prompt,举的例子是「帮我画一枝晶莹剔透的牡丹花」。我用「文心一格」画了这个 prompt。

专栏作家

书航,微信公众号:航通社 (ID:lifeissohappy),人人都是产品经理专栏作家。提供全原创科技新闻和观点。为您呈现文字有力、观点鲜明、打动人心的文章。

题图使用「文心一言」作画时,它会让你精准给出 prompt,举的例子是「帮我画一枝晶莹剔透的牡丹花」。我用「文心一格」画了这个 prompt。

特别声明

本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。

分享:

扫一扫在手机阅读、分享本文