掣肘中国版ChatGPT的三大难题

作者：青年投资家俱乐部发布时间：2023-02-20

ChatGPT需要通过不断获取大量数据进行自主学习并完成迭代的AI支持，对于AI技术的长期发展与积累储备有着很高的要求，因此这并不如其它APP一般，能从软件方向上进行简单的借鉴与复制转而本土化。

尽管国内目前已经有类似于ChatGPT的对话机器人运用在智能客服的场景中，但相较之ChatGPT自然语言处理的能力与接近99.9%的理解力，差距还是很大的。

在NLP已成全球化大势所趋时，国内要想诞生一款ChatGPT，难度在哪些方面？

01 硬件与成本

OpenAI开发ChatGPT是基于GPT-3.5的预训练语言模型和人类反馈强化学习技术，核心是谷歌推出的自然语言处理transformer的算法和架构。

ChatGPT在对语言进行分析和理解时，需要有参数支持，类似于神经网络，初代ChatGPT就有超过40亿个参数，而上一代GPT-3已经有1750亿个参数。

国内实验室目前做过最大的模型是有10亿个参数，ChatGPT是国内模型的175倍。根据微软的数据，OpenAI可提供给ChatGPT的算力包括28.5万个CPU和1万个英伟达A100GPU，按照GPT-3的1750亿个参数来算，训练一次需要耗费1200万美元，每日电费在5万美元，初始投入就达到8亿美元。

微软宣布下一步将ChatGPT嵌入搜索引擎Bing中，完成单次搜索需要超过50万台服务器和410万个GPU，而这些成本总和将超过1000亿美元。

虽然国内已经有很多可以支持计算的处理器，比如寒武纪、飞腾、海光等，但最大的问题是做不了高制成，仅仅能做到28nm，这会导致芯片密度降低，能耗更高，因此在芯片数量上就要比英伟达多出2到3倍。

而由于美国的限制，英伟达的A100对我国禁运，即就是在CPU和GPU的连接之间无法用到NVLink，这就导致数据传输时间将变长，效率变低，这对于训练自然语言模型时的影响非常大。

无论从算力支持还是训练成本上看，目前国内要实现ChatGPT都是比较困难的。

此次ChatGPT能迅速在全球范围内爆火，离不开微软在云计算基础设施方面的发展和积累，国内互联网大厂腾讯阿里等也都有自己的云计算平台，但追赶微软还需很长一段时间。

02 数据与语料

ChatGPT能在自然语言处理、文本生成和人机对话上有惊人的表现，除去硬件支持外，大量数据获取下的语料库建立也是很关键的。

训练语言模型一定需要不断给予其更新的文本内容，帮助模型学习语言和获取知识，以此来构建语料库，能理解自然语言并生成高质量准确的答案文本。

获得不断更新的文本内容，就需要通过网站和自有平台进行信息爬取，Common Crawl是美国的非营利性组织，负责抓取网络并免费向公众提供其档案和数据集，这个组织就是ChatGPT语料库建立的主要来源之一。

英文语料库的建立对于ChatGPT而言并不难，除去上述组织，还有全球各地的网站、Bing搜索引擎、维基百科等等，但是对于中文来说就并不像英文那么容易。

一方面是在英文网站和搜索引擎内中文信息与资料并不全面，在ChatGPT国内热度起来后，就有网友表示自己在ChatGPT里所问的中英文问题回答的质量并不一致。另一方面，国内互联网如百度、微信、360、科大讯飞等在简体中文之外获取的信息有限，而像知乎、微博、网文网站等同样缺乏非简体中文的内容全面性。

因此无论是国内自然语言模型的训练还是对于ChatGPT，中文语料库都是亟待解决的问题。

03 应用场景

既然开发ChatGPT的硬件成本如此高，即使未来国内有科技公司完成了中国版ChatGPT的开发，如何应用在生活中体现其商业价值也是需要考虑的。

正如上文所述，国内目前已经有企业尝试在智能客服环节运用类ChatGPT的人机对话AI机器人，但仅仅是将传统对话模式简单移植到AI平台，并没有改变用户与产品之间的交互方式，也没能提高产品服务的效率，无法体现AI的实际价值。

这就与传统燃油车转型新能源只是简单的油改电一样，很多可预见的实际应用场景，目前的发展方向还都只是用AI取代真人来完成，比如文案工作、新闻工作、设计师、人力资源、音乐创作等，但从学习的方式、工作的模式、沟通的便捷性等多个方面没有变革性的改变。

并且由于中文语料库的匮乏，即便自然语言模型能胜任以上场景，但结果与效率上也并不能令人满意。

因此，国内ChatGPT的商用暂时也就无法实现。

ChatGPT的出现，让AI产业的发展与AI开发模式明确了未来的方向，在自然语言模型能更加全面，AI产业链更加完善的未来，中国版ChatGPT也许会很快到来。

本文来自微信公众号“青投创新”（ID:scilabs），36氪经授权发布。

掣肘中国版ChatGPT的三大难题

01 硬件与成本

02 数据与语料

03 应用场景

推荐体验

相关资讯

对话百度：国内构建十万卡集群的三大难题

解决AI手机和AI PC落地端侧大模型的三大难题

利用AI写作杀出一条全新业务线保姆级教程解决三大难题

最新调查：AI大模型的两大难题，要靠“绿色计算”来解决？

奥特曼重返OpenAI面临五大难题：既要安抚员工又要面对慌乱的客户

近期资讯

科研成果从“书架”走向“货架”

中国熟透了的28nm及以上芯片，美国为何会害怕？

盘点2024年那些快消失的手机配置简直大快人心!

雷军：小米SU7全年交付量超13万提前完成全年目标

推动产业创新与进步康利IP产业对接交流会成功举办

巩义市宏萌新材料取得具有密封功能的烧制坩埚专利，提高装置的实用性

资源大揭秘|一次参展就将交通行业资源收入囊中？这场展会真就做到了！

川渝首条低空短途运输航线在绵阳北川正式开通

郑州二七警方加强人才培养体系建设全面提升公安新质战斗力

嫦娥五号月球样品向公众开放！去了这个展四舍五入也算去了趟月球

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响