当前位置:首页|资讯|文心一言|ChatGPT

文心一言内测随想

作者:鹤啸九天的科技思考发布时间:2023-03-18

引言  

昨晚22:30收到内测邀请码,赶紧试用下,以飨读者。

1 比赛回顾

上次提到了国内外各大厂商使出浑身解数,希望快速复刻ChatGPT,抢占先机:

(1)刻舟求剑:从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。目标明确,路径相对清晰,风险较低,但速度要快。(少数先行者)

(2)观望徘徊:这次变革有那么大吗?不会又是炒作吧?先观望下,别人趟完坑再说,先按兵不动。(主流)

(3)弯道超车:理解ChatGPT背后原理及不足,做出更好的聊天机器人。理想很美好,现实很骨感,道阻且长,这条路注定不会一帆风顺。(个别勇者)

达克效应:人对陌生事物的认知规律:愚昧山峰(过度乐观)→绝望之谷(过度悲观)→开悟之坡(客观理性)→平稳高原(谦卑进取)。

今天聊聊路线(1)刻舟求剑,近期的变化。

2 近期资讯

2月21日复旦NLP实验室发布国内第一个对话式大型语言模型MOSS吗?访问地址(https://moss.fastnlp.top/),内测当天就崩了,邱锡鹏教授表示效果“很不好”。(悲观)

2月24日,META发布受限开源大模型LLaMA(羊驼),13b参数的 LLaMA 模型在大多数基准上可以胜过 GPT-3( 参数量达 175b),而且可以在单块 V100 GPU 上运行,而65b参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。

2月25日,  机构开源Open Assistant ,旨在训练一个 ChatGPT 的小规模替代版本,就像  相对于  一样,让普通人都可以跑起来

3月10日,Together 组织基于 EleutherAI 开源的 GPT-Neo 和 GPT-J 构建了一个新的类 ChatGPT 开源项目 ——  

3月14日,斯坦福微调了 7B LLaMA 模型(META受限开源),只用了 52K 的数据,达到了和达芬奇003类似的效果,并且可以跑在消费级设备上,比如树莓派。(稍乐观)

3月15日,GPT-4突然发布,吸引了全球目光。OpenAI 发布论文(其实是技术报告)、 System Card,ChatGPT 直接升级成了 GPT-4,也开放了 GPT-4 的 API(仅限付费用户)。传闻去年8月就完成了GPT-4的训练,但拖到现在才发布,中途还推出中间版本ChatGPT。GPT-4 标志着OpenAI正式步入多模态大语言模型行列,升级点:

①强大的识图能力;

②文字输入限制提升至 2.5 万字;

③回答准确性显著提高;

④能够生成歌词、创意文本,实现风格变化。

(悲喜交加:喜的是大模型都可以识别图片啦!悲的是其它公司,快要追上OpenAI时,距离又拉大了)

3月14日,清华系公司智谱AI发布ChatGLM-6B,基于已有的清华GLM-130B大模型(亚洲唯一上榜GPT-3规模大模型)发展而来,对标ChatGPT,内测已结束。详见:https://chatglm.cn/blog

创作剧本、写代码,功能看着还不错

只是生不逢时,被GPT-4淹没,匆匆内侧结束,无人知晓

3月16日下午14点,百度正式推出大语言模型文心一言,视频展示了在多个使用场景中的综合能力。(情绪复杂:半信半疑,百度真的可以吗?)

3 文心一言

文心一言在 ERNIE 及 PLATO 系列模型的基础上研发而来,关键技术包括:有监督精调(SFT)、人类反馈的强化学习(RLHF)、提示(Prompt)、知识增强、检索增强和对话增强。

功能很强,包括文学创作、商业文案创作、数理推算、中文理解和多模态生成

(1)文学创作:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。

(2)商业文案:文心一言顺利完成了给公司起名、写 Slogan、写新闻稿的创作任务。

(3)思维能力:数学推演及逻辑推理等相对复杂任务。面对“鸡兔同笼”这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按步骤算出正确答案。

(4)中文理解:

正确解释了成语“洛阳纸贵”的含义、“洛阳纸贵”对应的经济学理论,还用“洛阳纸贵”四个字创作了一首藏头诗。

(5)多模态生成:生成文本、图片、音频和视频的能力。

①语音,会说四川话、东北话、广东话和台湾话。文心一言甚至能够生成四川话等方言语音;

②图像,调用文心一格能力

③视频,视频生成能力因成本较高,现阶段还未对所有用户开放。

看起来功能强大,ChatGPT有的,文心也有,ChatGPT没有的,文心还有(文生图/语音/视频)。

然而,由于某些原因,大家对百度的信心不足,不少网民以此开涮。

发布会当天百度港股大跌,好在一天后回升。

4 内测

不管悲观还是乐观,先放一边,花点时间,亲自测测不就知道了?收到内测邀请码,赶紧登录账号,开启体验之旅。

【ChatGPT】 vs 【文心一言】

UI交互上,大致相当,ChatGPT根据问题自动生成标签,而文心直接获取问题。

【第一轮】数学题

从一个数学题开始:ChatGPT vs 文心一言

24577=3511*7,两者都有模有样,但文心结论错误,ChatGPT结论正确,过程错误

【第二轮】一致性

检查语言模型是否真正理解。

ChatGPT刚开始是对的,被用户带歪了,一味讨好,罔顾事实。

文心回答飘忽不定,先对后错,用户纠偏后,终于正确。

可见,两者都没有真正理解问题含义,一致性欠缺。

【第三轮】常识理解

一个经典问题

经过网友调戏后,这两家都学乖了,没啥大毛病,但ChatGPT回答更加贴切,文心相对死板,死抠法律条文。

再来一个自然科学问题

ChatGPT刚开始犯错,再次问时醒悟过来,敢于纠正用户的错误

文心则不同,被用户带偏,与事实相悖。

【第四轮】内容创作

内容创作

ChatGPT回答实在,作诗质量更高,文心对视频制作限定了格式,估计在适配后续视频生成。

【第五轮】多模态输出

ChatGPT:表格整齐有序,有记忆能力,能矫正用户错误信息

文心:表格内容凌乱,有些缺失,图片找不到,只能勉强用文心一格画,但是并未理解到位,上文信息(黑洞)丢失,进一步提示后,文心一格作图还是挺惊艳的

还支持语音播报

案例很多,不再罗列。

更多示例参考知乎专题:https://www.zhihu.com/question/589955024

5 内测结论

总结下文心一言的体验感想

文心一言整体上可用,相对之前的生成式对话模型(柏拉图)有较大进步

3个月时间推出这样的版本,已经不错了

完整总结:

(1) 模型信息:

基于transformer,使用海量数据训练而来,细节未知,跟GPT-4一样神神秘秘

(2) 工程性能

输入长度最大1024个字

输出支持文本、表格、代码、图片、语音

响应速度跟GPT-3.5 Turbo类似,比GPT-4快很多

(3) 内容质量

知识丰富,集成了中文知识图谱,对时兴的电视剧(狂飙)、小说了如指掌。

语料质量不高,泛娱乐化,严谨科学的预料相对较少

不联网,训练数据截止约2022年底,无法获取当前时间信息 —— 不同于NewBing

但具备近实时纠偏能力,怀疑收到用户负反馈后,有语料纠偏机制,大概间隔几小时。

(4) 对话能力

基础能力:具备NER(命名实体识别)、指代、纠错等浅层语义,未出错

连贯性、

逻辑性

、一致性

记忆力:具备上文感知能力,但不太稳定,chatgpt也是

风格化:具备角色模拟能力,用法不如chatgpt多、灵活(假设你是***)

(5) 自我意识

承认无知:用户否认时,当场认怂,但再次询问时,依然坚持自己的立场,没被用户带偏。

敢于质疑:用户表述偏差时,敢于质疑,并给出一系列依据。

(6) 专业能力

不具备chatgpt里一键复制按钮

代码质量不如chatgpt,毕竟人家背后有GitHub大规模代码做后盾。

自动摘要:提取题目、总结要点

机器翻译:多语言翻译

写代码:支持,颜色显示,代码可执行,但有时结果不对;

文案创作:表现还不错,当然跟chatgpt一样,有时不能满足字数要求

数学题:看题目难度,解答有的对,有的错,展示形式上较好(公式),质量上同chatgpt

作诗:擅长藏头诗、文学创作,中文理解能力较好

自然语言格式化:文本转表格(markdown)、json(有些质量问题)

(7) 多模态能力:支持文本、表格、图片、语音

不具备图像理解能力,VisualQA不行,当然也不能根据语义修改图像(微软Visual GPT)

语音播放:仅支持广东话、四川话、东北话、闽南语,不支持其他,如普通话、英语

画画(文生图):调用文心一格,文生图质量不错,优于普通版stable diffusion

还不能做视频

(8) 道德准则

违规违法约束:较好,拒绝回答非法问题(抢银行、炸弹制作等)

负面情绪干预:能识别用户负面情绪,并适当引导

文心一言像是在已有大语言模型基础上匆匆赶制出来,语言理解、表达、角色模拟、知识融合上跟ChatGPT有一定距离,短时间内难以追赶,怎么办?集成已有功能(方言播报、文生图、视频生成)作为功能亮点,形成自己的商业生态,讲好AI故事。

6 差异究竟在哪儿?

人们常说,中美互联网差异:

美国擅长从0到1的技术创新,而中国擅长从1到10的商业模式创新。

可事实果真这样吗?ChatGPT这样一个技术味儿十足的聊天工具,没什么产品打磨,也没太多商业变现逻辑,居然能掀起AGI大浪,人尽皆知。

前阵子流传的话题:中美AI差异在哪儿?有这样一个精彩的解答:

如果把AI想象成一个小孩

(1)欧美的AI属于精英教育路线,出生后,家里就一路砸钱,供他读书读到博士。等到毕业之后,一出场就王炸,惊艳全场。

(2)我们的AI属于功利教育路线,出生就接受生存教育,养到15岁,就开始逼着他想办法给家里挣钱。学的都是如何市场化的技巧。

从谷歌的围棋,波士顿动力的机器狗,到现在的ChatGPT,都有3个共性

1、默默烧钱,蛰伏多年;

2、一鸣惊人,出来都是王炸;

3、靠技术基建挣钱,看不到直接盈利的模式。

再看看我们:

机器人刚学会基本对话,就开始找盈利场景,于是出现了**AI及其家电衍生物;

某大厂对话机器人刚能说话,就转向**客服机器人;

无人驾驶刚开始学会在开放道路上低速行驶,只会认路认障碍物,就开始搞无人车配送;

某大厂NLP做机器人客服。产品刚有雏形,技术和产品就被迫为业务目标服务。

ChatGPT爆火,大家并不关心中国现有技术到什么层面,中美最大的差异从哪来…… 

他们想的依然是:AI怎么赚钱,有哪些业务机会。

现在AI从业者面对老板/投资人的处境,就像一个想从村里走出去求学的年轻人,每经过一个路口,就有一群大爷大妈,怼着他问:“ 咦~读博士花那么多钱有啥用唻~能挣钱不~~还不如牛二娃去厂里打螺丝~3年就给起了新房子~”。

为什么欧美AI比我们强?

在公开场合会说“中国AI更倾向于业务应用和商业化的能力”。

而夜深人静时,内心的声音是 “人的命运在子宫里就注定了,机器人也不可幸免。”

扪心自问:我也是,总想着怎么应用,没有耐心在技术上细细打磨。。。

差异究竟在哪儿?在我,在我,在他。。。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1