本来今天是没打算看文心一言的发布会的,但还是看了,发一篇很快的总结吧。
0.前言
本次文心一言的发布压力本来就很大的,毕竟GPT-4已经放出来了,这又是大厂第一次发布自回归大语言模型(OpenAI并不是大厂),压力多大就不多说了,可以看如下的梗图:
1.能力发布
发布会第一阶段,主要是展示能力。
看得出来文心一言是知道该重点攻克哪里的,而且应该是有点高估GPT-4,所以竟然有多模态生成。
文心一言重点攻克的是中文,其实中文的难度是比英文要大的,毕竟中文语料质量和数量其实和英文都有差距。而且其实ChatGPT和GPT-4的中文理解能力也是没有英语强的(所以英语好的朋友其实更建议用英文对话),不过百度毕竟是有语言大模型的经验(之前也是和主流一样主要在做判别模型),所以应该也是有充足的经验了。
GPT-4目前只有输入是多模态的,并且目前只开放了语言模态,GPT-4的输出依然只有文字。展示中我没有看到文心一言输入可以是多模态,但输出确实可以做多模态了。文心一言可以输出图像、语音和视频(视频目前不开放给一般用户)
2.技术发布
发布会第二阶段,主要是讲解技术。
总能力发布其实就可以看出来,文心一言不是单纯的端到端模型,应该是超级缝合怪,用了很多增强技术来做,就这个层面来说是比ChatGPT强一些的(LeCun直呼内行好吧)
一共六个主要技术,下面三个是ChatGPT用的几个核心技术,上面的是百度的。
简要说几个:
(1)提示(prompt)。不出意外的,有思维链CoT
(2)知识增强。用了超大知识图谱,这也展示了大厂的一个优势——比OpenAI砸钱能力强多了
(3)检索增强。应该是直接接了百度搜索引擎,和new bing的做法类似
(4)对话增强。这个应该是额外对对话能力方面做了优化。
(5)我觉得还有其他黑科技,类似于Visual ChatGPT或Toolformer那样的
3.后记
整体来说,我觉得这次发布会还是可以的。毕竟也是第一次发布自回归大语言模型嘛,而且有多模态生成已经很厉害了,而且并不是完全和ChatGPT和GPT-4对抗(很多东西能做互补),说明百度还是比较清醒的。
当然,发布的还是有些急的,很多东西应该还有待完善,但这几个月就做到这种程度,我个人感觉已经很不错了。
当然,模型的很多细节都没有披露。也没办法,OpenAI开了这个头,其他的厂想要开源千亿规模的大模型其实都不太容易了(也有其他原因)。
写的比较快,里面一些东西就不贴链接了,感兴趣的朋友就麻烦自己翻找一下了。
花师小哲-中二 2023-05-06
花师小哲-中二 2023-03-20
花师小哲-中二 2023-01-12
花师小哲-中二 2023-08-07
花师小哲-中二 2023-07-27