当前位置:首页|资讯|百度|文心一言|李彦宏|生成式AI

百度文心一言的内测回答,让我惊呆了

作者:钛媒体APP发布时间:2023-03-17

原标题:百度文心一言的内测回答,让我惊呆了

图片来源@视觉中国

文 | 商业秀

01

千呼万唤始出来。

2023年3月16日,星期四。创始人、董事长兼首席执行官李彦宏在科技园区对外介绍并展示了生成式AI 产品“文心一言”。

而就在文心一言发布的前一天,OpenAI抢跑发布了多模态预训练大模型GPT-4,并且功能又强大了不少:可接受的文本输入上限更高,回答的准确性和逻辑性更强,以及强大的识图功能,能丝滑般解读图片或图表中的内容。

在这个节点,无论后发者的产品如何,都会被审视、对比和批判。

早在发布之前,外界对文心一言的期待心情,可以说是一种非常复杂的极端结合:既不是很看好、但又万分期待。

一张疑似内部的聊天截图在各大群流转,多少传达了外界对文心一言的某种不看好情绪。随后,内部人士称,“假图”。

来源:网络

当然,有人不看好但又十分期待,提前进行心理预设。

当人们在心中对目标对象有了一种最佳预设的时候,只要目标对象稍微有一点瑕疵,在很多条件下,这些瑕疵就会被不断放大。

这在心理学上叫做预期管理,当高出预期,人们的表现就是惊喜;当低于预期,反而就会表现得失望。

这是典型的非理性心理反应,外界有多期待,就会有多挑剔。压力来到这边。当被外界架起来和国外的谷歌、微软进行对比和审视的时候,的心情也是复杂的,既渴望尽快发布产品,同时又期待外界多给一些宽容和时间。

但事实是,真的来不及了,只能先上车,边走边调整。

一时间,数十台摄像机和聚光灯聚到了上台的李彦宏身上。来自现场和线上直播的众目睽睽之下,李彦宏的开场,多少有些小紧张。

他首先说——最近一段时间,很多朋友问我,“为什么是今天,你们真的ready了吗?”他自答道,“其实从某种意义上说,我们已经为此准备了多年,我们十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。”

旋即,他话锋一转,坦承文心一言虽然做出来了,但是也有“不完美”——

“但也不能说我们完全ready了,文心一言对标ChatGPT、甚至是对标CGT-4,门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试,感觉还是有很多不完美的地方。”

从现场演示来看,文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等方面确实有突出的能力,尤其是在中文理解上,比ChatGPT-4要好很多。

某种程度上,文心一言具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。

但也如李彦宏所言,文心一言表现出了一些“不完美”——“这种生成式的语言大模型确实会出现‘一本正经胡说八道’的现象,大家在其他大模型的体验过程中应该有这种感觉。”

不止文心一言,抢跑的ChatGPT和新版必应,在有些问题的回答生成上,也会一本正经地“胡说八道”,甚至还会在一些数学问题上犯错误。

审视这些产品的“不完美”,除了成为网友们茶余饭后的调侃娱乐外,又该如何去解决,才是最正经的事。

对此,3月16日,李彦宏在新闻发布会上表示,百度在这个方面做了知识增强和检索增强。“所谓的知识增强,就是有5500亿知识图谱里的事实,它叠加了这些生成式大模型之后,就可以做一些检查,看看生成出来的内容到底和事实是否吻合。”

从产品体验和底层技术研发来看,这些“不完美”恰恰需要更多的时间去训练、优化调整迭代。

02

在新闻发布会现场,李彦宏展示了文心一言在五个使用场景的表现,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成。

整体而言,关于一些常规的事实性问题,文心一言的回答既能准确理解人类意图,又能清晰地表达,能够满足不同领域的用户需求,表现还算让人满意。

不过也有一些意外收获。发布会结束后,商业秀小编拿到内测名额,话不多说,来体验一下。

比如你问它,《红楼梦》到底有个版本?有哪些考究?文心一言不仅回答了哪些版本的考究,甚至还给出了不同版本的差异分析

又比如,问它“薛定谔的猫到底有几只猫?” 它的回答也比较客观

如果我们问明星八卦,Emmm

我们打算有意再“刁难”一下它,当我们给了一个:“把冰箱装进大象,总共分几步”时,它不仅给了答案,而且好像还自动帮你更正了问题

我们继续追问,然后是酱紫的

原谅小编,有点“杠精”附体了

当然,它也会出错,当你不断地追问,和它交互,它也会认错。比如问它关于卡尔维诺的小说《树上的男爵》,它的回答是

随后,问它卡尔维诺的“我们的祖先”三部曲,它就自己提到了《树上的男爵》

再给一些基础的数学题,基本上也能计算出来

另外,在商业文案创作场景中,文心一言也能顺利完成给公司起名、写Slogan、写新闻稿的创作任务。比如让它给自己的发布写一篇新闻发言稿看看

接下来,测试了一下它的图像生成效果,来画一只五彩斑斓的猫~嗯,有点眼熟,文心一格?

帮我画个小哥,浓眉大眼、高鼻梁、戴眼镜,要那种斯文(败类)型hhhh

接着小编有点皮,要求有点多,“樱桃小嘴”的男生,什么鬼?我看你长得像樱桃

随后,小编更改了一些组合元素,啊?这……

Emmmm,不得不说,在图片生成上文心一言还有待继续训练、训练、再完善、再优化,再迭代。

再试试视频吧!啊哦,目前还只能给你生成脚本,好吧。

据百度称,文心一言的视频生成能力目前还未对所有用户开放,因为成本比较高,当然未来会逐步接入。

从文心一言的表现看,某种程度上它具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。

但整体而言,这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。所以需要更多的用户来体验和反馈。

发布会当天,百度同时公布了文心一言的邀请测试方案,并称3月16日起,首批用户即可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。

当晚,文心一言的页面出现了排队人数过多、无法使用的情况。一边吐槽、一边跃跃欲试的人,也都迫不及待来体验。

而在B端层面,智能云即将面向企业客户开放文心一言API接口调用服务,文心一言将和更多企业合作,一起来训练打造适用于不同场景和行业的数据模型。

据了解,3月16日晚,智能云称已经和5家企业完成首批签约合作,并与650家企业启动签约,申请文心一言的API调用服务测试的企业突破6.5万。

03

和文心一言“互动”了一晚上,小编感觉自己一下子多了一个机器人助理。

虽然这个助理还不够成熟,但基本上能完成一些比如文案、报告、营销、策划等和文字内容相关的处理工作了。

我们也要对它有信心,要给它点时间。相信未来在文心一言以及ChatGPT的帮助下,打工人的工作内容也是信手拈来。

文心一言发布当天,引发全球关注,最大的反应就是百度的股价,但很快今天就涨回来了,说明外界还是看好它的未来发展,毕竟需求摆在那里。

从更深远的格局和维度来看,大语言模型和生成式AI代表了一个新技术范式,是全球每家企业都不能错过的机会。

而是全球大厂中第一个做出来对标ChatGPT产品的企业,这点毋庸置疑。

可以说,文心一言是过去多年努力的延续。人类进入人工智能时代,IT技术的技术栈发生了根本性变化,从过去三层到“芯片-框架-模型-应用”四层。在全球范围内,在四层架构的每一层都有领先产品的公司几乎没有,这是非常独特的优势。

在现场,李彦宏还说了一句大实话,“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。深度学习、自然语言处理,需要多年的坚持和积累,没法速成。”

在这波大模型的追赶赛中,是最早开始研发预训练模型的企业。从2019 年开始,就深耕预训练模型研发,先后发布知识增强文心(ERNIE)系列模型。

文心大模型研发的带头人,首席技术官、深度学习技术及应用国家工程研究中心主任王海峰博士,是自然语言处理领域权威国际学术组织ACL(Association for Computational Linguistics)的首位华人主席、ACL亚太分会创始主席、ACL Fellow,还是IEEE Fellow、CAAI Fellow及国际欧亚科学院院士。

王海峰表示,文心一言,是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。

并称,前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中也已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是已有技术优势的再创新,也是文心一言未来越来越强大的基础。

此前分析师表示,ChatGPT相关技术,在中国乃至全球范围均具有综合优势。ChatGPT处在技术架构的模型层,而在芯片、框架、模型、应用四层技术栈均有布局,其文心系列大模型在行业已普遍应用,而能支撑该训练模型的框架,除飞桨外,在中国难出其右。

在如今复杂的环境之下,文心一言能发布出来,就是一个新阶段的开始。人有我有,人有我再优。

李彦宏强调,“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”

作为用户,我们也该给百度此“士”多一些时间。本来,数据饲喂训练这事既耗成本、又费时间。(本文首发钛媒体APP)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1