封面:小蓝鸟@8co28
目前,谷歌、微软和百度,各大科技企业都在争着推出ChatGPT类型的产品。AIGC在当下真是比火焰山还要热了,而且妙趣横生。
作为辅助工具来说,AIGC很实用。写报告的时候不用再苦思冥想,让ChatGPT打个样就行了。最近剪音频也用到了demucs[1]分离背景音和人声、whisper-vits[2]切分音频并识别台词、abode的AI自动抠图[3]等等。即使不用vits合成语音,活字印刷也是前所未有的方便。
但目前AIGC最大的问题在于只是去拟合表象,而表达出的深层意义可能是随机的或根本没有。举个例子,就像通过背牛津英汉双解词典去学英语。由此产生了老生常谈的ChatGPT给出的答案有时似是而非,或者StableDiffusion的作品线条和色彩搭配都很乱等等问题。
于是我想:未来AIGC除了多模态的发展方向(即同时产生文本、图像、声音等多个媒体的内容),通过某种guideline(或许可以翻译成“指导手册”)去生成内容也不失为一种可行的办法。
创作内容的有些过程,既然可以工业化,其实是有步骤可循的。举几个例子:
1. 画人物可能需要先构思布局、然后勾线,最后完善细节、添加背景
2. 创作剧本可能需要确定主次情节、激励事件、展现人物深层性格、确定价值变化、进行幕设计,最后分析每个节拍后人物的心理变化和动机、填充细节
3. 回答和解决问题可能需要首先定位到问题在哪里、通过合适的渠道获取信息,最后筛选和聚合信息并采取正确的行动
如果把这几个步骤拆开,每个步骤研究一个模型,最后缝成一条流水线呢?如果让AI学会用谷歌找wikipedia词条,而不是用亿万个参数去记住wikipedia的所有内容[4]呢?
谷歌对标ChatGPT的Bard模型在demo演示上出了个笑话:声称JWST拍摄了太阳系外行星的第一张照片。必应则是摔了一张免责声明:AI可能出错,事实核查让用户自己去弄。[5]可以预想:如果AIGC的模型是按照guideline去解决问题,而不是背诵互联网上的语料,出错的可能性或许会更小。
当然也不排除另一种可能性:就像best-effort delivery[6](尽力而为传输)打败reliable delivery[7](可靠传输)发展成今天的互联网,深度学习模型可能自己已经学习出了这几个步骤的特征,或者ChatGPT拟合语料比按这种guideline来做的效果要更好。我对AI领域的了解很有限,可能这个方向早就有了,所以关于AI领域的设想也只能算一种暴言,但这毕竟听上去像是一个可行的方向。
最后:就像前面提到的,AIGC在目前生成的内容表达出的深层意义可能是随机的或根本没有,所以过度依赖或消费AIGC内容在今天并不是个好主意,但它毕竟代表了一种趋势。这是一个博物馆的时代:所有文明和所有时代的文化,首次可以得到整体上的全部认识和认可。[8]所有古老时刻可以被一视同仁地接受,被深藏在NLP大模型的亿万个参数里无群体重组而得到融合统一。不管画印象派的莫奈还是画日系的二次元,StableDiffusion都能给出有模有样的结果。祛魅以来,文化长久失去的统一性或许就在那里,在成为一个整体的AIGC模型身上。
参考和异轨:
[1] https://github.com/facebookresearch/demucs
[2] https://github.com/AlexandaJerry/whisper-vits-japanese
[3] https://express.adobe.com/zh-Hans-CN/tools/remove-background
[4] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A. and Agarwal, S., 2020. Language models are few-shot learners., https://arxiv.org/pdf/2005.14165.pdf, pp. 8-9.
[5] 谷歌版ChatGPT首秀,第一个Demo就大翻车,市值暴跌7000亿, 机器之心, https://mp.weixin.qq.com/s/1mkAlJbtYCmQcz_mV9cdoA
[6] https://en.wikipedia.org/wiki/Best-effort_delivery
[7] https://en.wikipedia.org/wiki/Reliability_(computer_networking)
[8] 居伊·德波,景观社会(张新木译),南京大学出版社,2017,页120-121