文心一言汉译英画图？我要唱唱反调

作者：洛天鸽发布时间：2023-03-28

（多图预警）

近期，百度的文心一言进入了测试阶段，不过也被人质疑是“套皮”，“鸿蒙第二”，遭到哔站众人的拷打。但是，说句不好听的，大部分人根本不在乎文心一言到底是不是套皮，他们只是秉持着对百度的厌恶，看都不看一眼就给这件事定了性。我能理解大家对百度的厌恶，因为我自己对这家公司也及其厌恶，毕竟百度的吃相难看是众所周知的。但这是两回事，不能因为百度吃相难看，我们就可以抛开现实不谈。因此我决定唱唱反调，给汉译英论者泼一桶冷水。

许多网友在文心一言的作画功能中输入部分在英汉互译中会产生歧义的词，比如输入“总线”，文心一言会画出“巴士”，因为总线和巴士在英文中都是bus，从而“实锤”文心一言实质上是把中文机翻成英文，拿去用已经开源的SD生成图画，再返还给用户说是自己生成的。

同样的例子还有鱼香肉丝

起重机（crane）

土耳其（Turkey）张开翅膀

这确实可以作为文心一言抄袭的一大有力证据，“中译英”确实可以解释上面的现象，但是，中译英无法解释下面的现象（以下机翻全部使用百度翻译）

胸有成竹的男人机翻是A man with a clear mind，胸有成竹机翻是have a well-thought-out plan，无论哪个都没有竹

唐伯虎点秋香的机翻是Tang Bohu Dots Autumn Fragrance，没有任何含“虎”的元素

车水马龙的机翻是incessant stream of horses and carriages，有水（stream 流，溪流），但是没有龙

机翻并没有大家想象的那样弱智，即使是百度翻译，也能正确地翻译以上内容而不会出现像文心一言这样“望文生义”的情况。

其实我们陷入了这样的一个思维误区：为什么当英汉互译出现歧义的时候，就能证明百度是“汉译英”而非“英译汉”？又或者其实我们都能意识到这样一个思维误区，但是为了流量，或者单纯为了骂百度，许多人选择性地忽视了后一种可能。但事实上我们发现，能用汉译英解释的，都能用英译汉解释，并且英译汉可以解释的更多，以前文提到的几张图举例

唐伯虎

车水马龙，当然这个并不是很完美，因为百度只保留了车水龙，马不知道到哪里去了

当然也不排除那辆车是宝马的可能

此外还有

熊熊烈火中的飞船，如果是汉译英，熊熊烈火是raging flames,不会出现熊。但如果是英译汉，百度翻译会把bear flame翻译成熊熊火焰，这样就能解释得通

由此我们可以看出，文心一言并非传说的那样是“汉译英”而是“英译汉”，汉译英论者给出的这些证据非但不能证明文心一言是套皮的chatGPT，反而能证明它是自研的，只是使用了英文的数据集。

既然是这样，那这也能说明为什么文心一言有时不能很好地理解中文了，因为用的就是英文的数据集。

但以上都只是猜测，有其他证据能证明吗？

欸，还真有，百度早就把ERNIE - ViLG 2.0的论文放出来了，其中有提到他们使用的数据集，具体可以看https://arxiv.org/abs/2210.15257

当然我知道你们是不会看的，所以我就截出来了

The training data of ERNIE - ViLG 2.0 consists of 170M image - text pairs, including the publicly available English datasets like LAION (Schuhmann et al.,2021） and a series of internal Chinese datasets.The image auto - encoder is trained on the same images. For images with English captions, we automatically translate them with Baidu Translate API3 to get the Chinese version.

翻译成中文是

ERNIE-ViLG 2.0的训练数据由170M个图像-文本对组成，包括公开可用的英语数据集，如LAION（Schuhmann等人，2021）和一系列内部中文数据集。图像自动编码器在相同的图像上训练。对于带有英文字幕的图像，我们会自动使用百度翻译API3进行翻译，以获得中文版本。

有了这些证据，我们就可以非常严谨地得出结论：“文心一言出现英汉互译的歧义问题是由于其使用了英译汉的数据集，而并非是汉译英拿去给别的软件来画图。”

说真的，要是认为文心一言就是套皮的产品，那多少有点看不起百度了，百度虽然吃相难看，但实力还是有的。科研中最大的难点在于你不知道那条路是正确的，所以必须不断试错。美国研究出核弹之后，苏联立马跟上也研制出了核弹；苏联研究出载人航天后，美国也紧跟着送了个人上去，因为一方已经把可行的道路指了出来，后面的人只要跟上就行了。那为什么在计算机上苏联败给了美国？除了国力的差距之外，苏联把前途赌在了电子管上，而美国选择了晶体管，后来证明晶体管的道路才是正确的，苏联赌错了，因而付出了巨大的代价。

而现在，ChatGPT已经把路指了出来，既然已经知道了这条路是可行的，百度要重走一遍这条路是不难的。

如果要对比老前辈GPT-4，文心一言的表现确实可以用令人失望来形容。你当然可以说它差劲，说它简陋，毕竟文心一言的水平是我们有目共睹的。你也可以为它辩解，说文心一言起步晚，现在还处在婴儿阶段，或者说虽然文心一言交上的答卷并不令人满意，但是其他同学都还是白卷，因此我们依然处于世界前列。但是这一切的一切都应当建立在实事求是，而非胡乱猜测，输出情绪的基础上。就算你要骂百度，也得骂对地方

（图源自网络，侵删）

文心一言汉译英画图？我要唱唱反调

推荐体验

相关资讯

唱唱反调：ChatGPT 的核心局限

关于AI幻觉！周鸿祎、李彦宏唱反调！

24年医学统考汉译英预测：ChatGPT与医患沟通！

编程已死，AI当立？教授公开“唱反调”：AI 还帮不了程序员

和 ChatGPT 之父唱反调，投资了 OpenAI 的顶级风投认为 AI 会拯救世界

近期资讯

岳阳兴长获得发明专利授权：“一种含PNP配体的乙烯选择性四聚用催化体系及其制备方法与应用”

检查清单：应对复杂工作的关键

2024年最大的意难平，是他们

如何解压压缩文件：常见格式与解压方法全解析

格力电器获得发明专利授权：“一种空调室外机风机机架及空调器”

豪迈科技获得发明专利授权：“一种耐刮擦的轮胎模具及加工方法”

农业银行获得发明专利授权：“一种交易调用方法、装置、设备及存储介质”

如何登录路由器并进行网络设置，提升家庭网络安全和性能指南

如何有效查找丢失手机的实用技巧与方法总结

全闪存阵列｜mdadm 实操

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响