ChatGPT需要通过不断获取大量数据进行自主学习并完成迭代的AI支持,对于AI技术的长期发展与积累储备有着很高的要求,因此这并不如其它APP一般,能从软件方向上进行简单的借鉴与复制转而本土化。
尽管国内目前已经有类似于ChatGPT的对话机器人运用在智能客服的场景中,但相较之ChatGPT自然语言处理的能力与接近99.9%的理解力,差距还是很大的。
在NLP已成全球化大势所趋时,国内要想诞生一款ChatGPT,难度在哪些方面?
OpenAI开发ChatGPT是基于GPT-3.5的预训练语言模型和人类反馈强化学习技术,核心是谷歌推出的自然语言处理transformer的算法和架构。
ChatGPT在对语言进行分析和理解时,需要有参数支持,类似于神经网络,初代ChatGPT就有超过40亿个参数,而上一代GPT-3已经有1750亿个参数。
国内实验室目前做过最大的模型是有10亿个参数,ChatGPT是国内模型的175倍。根据微软的数据,OpenAI可提供给ChatGPT的算力包括28.5万个CPU和1万个英伟达A100GPU,按照GPT-3的1750亿个参数来算,训练一次需要耗费1200万美元,每日电费在5万美元,初始投入就达到8亿美元。
微软宣布下一步将ChatGPT嵌入搜索引擎Bing中,完成单次搜索需要超过50万台服务器和410万个GPU,而这些成本总和将超过1000亿美元。
虽然国内已经有很多可以支持计算的处理器,比如寒武纪、飞腾、海光等,但最大的问题是做不了高制成,仅仅能做到28nm,这会导致芯片密度降低,能耗更高,因此在芯片数量上就要比英伟达多出2到3倍。
而由于美国的限制,英伟达的A100对我国禁运,即就是在CPU和GPU的连接之间无法用到NVLink,这就导致数据传输时间将变长,效率变低,这对于训练自然语言模型时的影响非常大。
无论从算力支持还是训练成本上看,目前国内要实现ChatGPT都是比较困难的。
此次ChatGPT能迅速在全球范围内爆火,离不开微软在云计算基础设施方面的发展和积累,国内互联网大厂腾讯阿里等也都有自己的云计算平台,但追赶微软还需很长一段时间。
ChatGPT能在自然语言处理、文本生成和人机对话上有惊人的表现,除去硬件支持外,大量数据获取下的语料库建立也是很关键的。
训练语言模型一定需要不断给予其更新的文本内容,帮助模型学习语言和获取知识,以此来构建语料库,能理解自然语言并生成高质量准确的答案文本。
获得不断更新的文本内容,就需要通过网站和自有平台进行信息爬取,Common Crawl是美国的非营利性组织,负责抓取网络并免费向公众提供其档案和数据集,这个组织就是ChatGPT语料库建立的主要来源之一。
英文语料库的建立对于ChatGPT而言并不难,除去上述组织,还有全球各地的网站、Bing搜索引擎、维基百科等等,但是对于中文来说就并不像英文那么容易。
一方面是在英文网站和搜索引擎内中文信息与资料并不全面,在ChatGPT国内热度起来后,就有网友表示自己在ChatGPT里所问的中英文问题回答的质量并不一致。另一方面,国内互联网如百度、微信、360、科大讯飞等在简体中文之外获取的信息有限,而像知乎、微博、网文网站等同样缺乏非简体中文的内容全面性。
因此无论是国内自然语言模型的训练还是对于ChatGPT,中文语料库都是亟待解决的问题。
既然开发ChatGPT的硬件成本如此高,即使未来国内有科技公司完成了中国版ChatGPT的开发,如何应用在生活中体现其商业价值也是需要考虑的。
正如上文所述,国内目前已经有企业尝试在智能客服环节运用类ChatGPT的人机对话AI机器人,但仅仅是将传统对话模式简单移植到AI平台,并没有改变用户与产品之间的交互方式,也没能提高产品服务的效率,无法体现AI的实际价值。
这就与传统燃油车转型新能源只是简单的油改电一样,很多可预见的实际应用场景,目前的发展方向还都只是用AI取代真人来完成,比如文案工作、新闻工作、设计师、人力资源、音乐创作等,但从学习的方式、工作的模式、沟通的便捷性等多个方面没有变革性的改变。
并且由于中文语料库的匮乏,即便自然语言模型能胜任以上场景,但结果与效率上也并不能令人满意。
因此,国内ChatGPT的商用暂时也就无法实现。
ChatGPT的出现,让AI产业的发展与AI开发模式明确了未来的方向,在自然语言模型能更加全面,AI产业链更加完善的未来,中国版ChatGPT也许会很快到来。
本文来自微信公众号“青投创新”(ID:scilabs),36氪经授权发布。