此前在3月16日下午,在百度创始人李彦宏略带紧张地演说中,百度对标微软ChatGPT的产品“文心一言”还是丑媳妇见了公婆。无论如何,这是国内第一款对标ChatGPT的生成式对话产品。
由于ChatGPT之前已经打了个样,加上百度前期高调造势,让人们对于文心一言抱有极高期望。不过随着体验程度加深,不少网友对文心一言的能力提出质疑。
根据百度的说法,文心一言具备跨模态、跨语言的深度语义理解与生成能力。也就是说,用户可以通过给出提示词让文心一言快速生成图片,没料想,这一功能却让百度陷入舆论风暴。
近日,有博主在体验过文生图功能后微博发文称,百度所谓的人工智能,其实就把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能“Stable Diffusion”生成了图画,再返回给你,说是自己画的。
事情的真实情况如何?
01
文心一言其实是“套壳”?
看起来丈二金刚摸不着头脑,实际上,将“总线”翻译为英文为“BUS”后,事情便有了头绪。对此,该网友认为是百度先翻译再调用海外的接口生成图片。
该说法能否立住脚呢?其实验证起来并不难,只需要创造一些相似的文生图场景,看文心一言的反应就能佐证。于是乎,广大网友加入了“找茬”大军。
这里挑几个具有代表性的例子:
“一可以豆”
“一可以豆”,这个词在中文里没有实际意义,但是如果翻译为英语则是“one can bean”,在英语翻译中“可以”对应着“Can”,但“Can”在英语里也有罐头的意思,所以文心一言生成的图片是“一罐豆子”。
此外,上述质疑百度的博主还测试,让其画起重机,文心一言会画出一只鹤的头,因为起重机的英文是“crane”,这个单词也有鹤的意思;“土耳其张开翅膀”,文心一言会画火鸡,因为土耳其和火鸡都是“Turkey”。
从这些例子中,能够初步得出结论,文心一言的图片生成功能是基于英语的,也就是将中文提示词翻译为英语再生成。这似乎做实了该博主得出的结论:
“他们最近推出的那个会画图的人工智能,#文心一言#,恐怕是和汉芯、鸿蒙一样的东西套壳、画皮、造假。”
“我觉得好丢人。无数次需要民族企业出来振作我的自豪感,那怕不是"领先”,就只是“紧随其后"这样的自豪感,却总有流氓出来恶心人,芯片是砂纸磨的,系统是外壳套的,连个不赚钱的人工智能都是机翻的......就难免让我恶及余胥。”
随着舆论不断扩大,百度也坐不住了。3月23日,百度方面发布声明称,已注意到对文心一言文生图功能的相关反馈。
百度回应:一、文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG;二、在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。
百度还表示,文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。
即便百度第一时间作出应对,但目前来看,已经避免不了网友们对文心一言的质疑越来越多。知乎平台上“如何评价百度文心一言绘图疑似中译英再绘制?”的提问下,过半回答表达了对百度的不信任。
02
罪魁祸首是“中译英”
与大众的一边倒不同的是,也有业内人士从专业角度解读。
对于文心一言的作画功能是否“套皮”,亚洲视觉科技研发总监、微博新知博主@风云学会陈经表示,百度画图AI不是套皮外国绘画AI,不能乱攻击。是自己(百度)训练,但是拿英文标注的开源图片素材,中翻英当prompt(显示提示对话框)。
他指出,现在全球AI研发有开源传统,特别是训练数据库,不然大家自己收集图片效率太低了。而且图片是要标注的,这更加大了收集整理图片的难度。所以百度拿英语标注的图片库进行训练完全没有问题,这本来就是开源的意义。
真正引发冲突的地方在于,“百度能训练出画图AI,但是中文输入词就还没搞定,估计是没时间,因为发布的时间已经定了。所以就弄了个简单的中翻英来应对。”
因此,百度应该根据用户反馈,想办法把中文的prompt与英文的训练素材更好对应上,这其实是很正经的有意义的研发。
一名行业人士在该动态下留言,“开源的图文数据大部分是英文的,看laion这个开源数据库就知道,所以目前diffusion model基本都是英文驱动很正常,即使是中文语言模型库也会有一些,而且现阶段因为中文clip翻译效果不好匹配英文的用很正常,信息环境虽然都透明化了,技术这个事情不可能套壳的,不靠谱”。
从这里可以看到,造成百度此次舆论危机的罪魁祸首,其实是数据训练中的“中译英”失利。
这似乎是一件很滑稽的事情——“中译英”不是一件很简单的事情吗?
实则不然,在技术上这属于机器翻译的范畴。机器翻译,又称为自动翻译,是利用计算机将一种自然语言转换为另一种自然语言的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
近年来,随着人工智能的发展,机器翻译技术也越发成熟,各大公司相继推出自己的翻译系统。
典型厂商如科大讯飞,其成立之时就开始在语言和翻译领域布局项目。讯飞翻译服务采用了国际上领先的翻译技术,通过整合注意力网络机制和循环神经网络,支持中英、中日、中韩等多种语言互译。
在2022年国际口语机器翻译评测比赛中,科大讯飞与中科大语音及语言信息处理国家工程实验室(USTC-NEL)联合团队在语音翻译任务中(Offline Speech Translation),取得两个第一、一个第二的成绩。
此外,网易在2011年创立网易感知与智能中心,拥有自建分布式深度学习平台,其自主研发的图像处理、语音识别、智能问答等 AI 技术,已经在有道翻译中得到了应用和推广。
而拿这次舆论中的百度来说,此前在发布会上,百度称“文心 ERNIE-ViLG 构建了包含1.45亿高质量中文文本-图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型,在文本生成图像、图像描述等跨模态生成任务上评估了该模型的效果。”
可以看到百度此前是拍着胸脯保证过了,但从结果来看,也许真是应了业内人士的猜想,百度此次太过仓促了,从而在数据训练中的“中译英”场景上贻笑大方。
03
写在最后
眼下,ChatGPT的爆火吸引着国内外势力在大语言模型赛道布局。国外无需赘述,国内来看,尽管各方势力小动作不断,但既有人工智能相关技术沉淀又有一定资金实力的参与方还得是以大厂为主。
作为国内大厂,从自动驾驶、元宇宙、数字人,到当下最火AIGC以及ChatGPT,追风口成了百度在移动生态基本盘之外,给市场讲的新故事,遗憾的是,却未能得到资本市场的持久认可。
在这一过程中,大众也对百度的好感一降再降,结合此次负面舆论与过往种种,百度为什么从当年一家受人尊敬的科技公司走到今天被很多人指责的地步?这个问题百度应该好好思考一下。