据报道,百度文心一言的绘画功能对中文的理解,疑似是把中文翻译成英文以后再作为prompt绘制的。
恰恰因为生成的梗图够多,反而能证明百度是自研的。“中译英”这个说法能解释的问题,用“英译中”一样可以解释,而且比起“中译英”,“英译中”的说法能解释更多问题。百度用了国外的图片集来训练自己的AI,但在翻译AI标注的图片时出了问题,把“巴士”翻译成了“总线”。
百度这个模型现在确实完成度比较差,但目前看主要的问题是数据集太少,质量太差。它的幸运在于,它一部分翻车的图片反而帮他自证了清白,所以我看来套壳的可能性不大。
无论是中译英还是英译中,熊熊燃烧都不应该出现熊,英文表述里根本就没有出现任何熊相关的东西。可能连翻译都不是,就只是逐字提取关键字啥的。
总的来说技术上落后于gpt4发布会展示的多模态能力,但是工程上倒没什么可黑的,把之前百度搞得图像生成拿来复用也算是短平快而且节省成本的做法。