(多图预警)
近期,百度的文心一言进入了测试阶段,不过也被人质疑是“套皮”,“鸿蒙第二”,遭到哔站众人的拷打。但是,说句不好听的,大部分人根本不在乎文心一言到底是不是套皮,他们只是秉持着对百度的厌恶,看都不看一眼就给这件事定了性。我能理解大家对百度的厌恶,因为我自己对这家公司也及其厌恶,毕竟百度的吃相难看是众所周知的。但这是两回事,不能因为百度吃相难看,我们就可以抛开现实不谈。因此我决定唱唱反调,给汉译英论者泼一桶冷水。
许多网友在文心一言的作画功能中输入部分在英汉互译中会产生歧义的词,比如输入“总线”,文心一言会画出“巴士”,因为总线和巴士在英文中都是bus,从而“实锤”文心一言实质上是把中文机翻成英文,拿去用已经开源的SD生成图画,再返还给用户说是自己生成的。
同样的例子还有鱼香肉丝
起重机(crane)
土耳其(Turkey)张开翅膀
这确实可以作为文心一言抄袭的一大有力证据,“中译英”确实可以解释上面的现象,但是,中译英无法解释下面的现象(以下机翻全部使用百度翻译)
胸有成竹的男人机翻是A man with a clear mind,胸有成竹机翻是have a well-thought-out plan,无论哪个都没有竹
唐伯虎点秋香的机翻是Tang Bohu Dots Autumn Fragrance,没有任何含“虎”的元素
车水马龙的机翻是incessant stream of horses and carriages,有水(stream 流,溪流),但是没有龙
机翻并没有大家想象的那样弱智,即使是百度翻译,也能正确地翻译以上内容而不会出现像文心一言这样“望文生义”的情况。
其实我们陷入了这样的一个思维误区:为什么当英汉互译出现歧义的时候,就能证明百度是“汉译英”而非“英译汉”?又或者其实我们都能意识到这样一个思维误区,但是为了流量,或者单纯为了骂百度,许多人选择性地忽视了后一种可能。但事实上我们发现,能用汉译英解释的,都能用英译汉解释,并且英译汉可以解释的更多,以前文提到的几张图举例
唐伯虎
车水马龙,当然这个并不是很完美,因为百度只保留了车水龙,马不知道到哪里去了
当然也不排除那辆车是宝马的可能
此外还有
熊熊烈火中的飞船,如果是汉译英,熊熊烈火是raging flames,不会出现熊。但如果是英译汉,百度翻译会把bear flame翻译成熊熊火焰,这样就能解释得通
由此我们可以看出,文心一言并非传说的那样是“汉译英”而是“英译汉”,汉译英论者给出的这些证据非但不能证明文心一言是套皮的chatGPT,反而能证明它是自研的,只是使用了英文的数据集。
既然是这样,那这也能说明为什么文心一言有时不能很好地理解中文了,因为用的就是英文的数据集。
但以上都只是猜测,有其他证据能证明吗?
欸,还真有,百度早就把ERNIE - ViLG 2.0的论文放出来了,其中有提到他们使用的数据集,具体可以看https://arxiv.org/abs/2210.15257
当然我知道你们是不会看的,所以我就截出来了
The training data of ERNIE - ViLG 2.0 consists of 170M image - text pairs, including the publicly available English datasets like LAION (Schuhmann et al.,2021) and a series of internal Chinese datasets.The image auto - encoder is trained on the same images. For images with English captions, we automatically translate them with Baidu Translate API3 to get the Chinese version.
翻译成中文是
ERNIE-ViLG 2.0的训练数据由170M个图像-文本对组成,包括公开可用的英语数据集,如LAION(Schuhmann等人,2021)和一系列内部中文数据集。图像自动编码器在相同的图像上训练。对于带有英文字幕的图像,我们会自动使用百度翻译API3进行翻译,以获得中文版本。
有了这些证据,我们就可以非常严谨地得出结论:“文心一言出现英汉互译的歧义问题是由于其使用了英译汉的数据集,而并非是汉译英拿去给别的软件来画图。”
说真的,要是认为文心一言就是套皮的产品,那多少有点看不起百度了,百度虽然吃相难看,但实力还是有的。科研中最大的难点在于你不知道那条路是正确的,所以必须不断试错。美国研究出核弹之后,苏联立马跟上也研制出了核弹;苏联研究出载人航天后,美国也紧跟着送了个人上去,因为一方已经把可行的道路指了出来,后面的人只要跟上就行了。那为什么在计算机上苏联败给了美国?除了国力的差距之外,苏联把前途赌在了电子管上,而美国选择了晶体管,后来证明晶体管的道路才是正确的,苏联赌错了,因而付出了巨大的代价。
而现在,ChatGPT已经把路指了出来,既然已经知道了这条路是可行的,百度要重走一遍这条路是不难的。
如果要对比老前辈GPT-4,文心一言的表现确实可以用令人失望来形容。你当然可以说它差劲,说它简陋,毕竟文心一言的水平是我们有目共睹的。你也可以为它辩解,说文心一言起步晚,现在还处在婴儿阶段,或者说虽然文心一言交上的答卷并不令人满意,但是其他同学都还是白卷,因此我们依然处于世界前列。但是这一切的一切都应当建立在实事求是,而非胡乱猜测,输出情绪的基础上。就算你要骂百度,也得骂对地方
(图源自网络,侵删)