当前位置:首页|资讯|人工智能|深度学习

中文语言模型:挑战与机遇并存的新一代人工智能技术

作者:暮奎发布时间:2023-04-01

  人工智能发展日新月异。现在的人工智能是当今世界最热门的技术领域之一,也是未来社会发展的重要驱动力。在人工智能的各个子领域中,自然语言处理(NLP)是最具前景和影响力的方向之一。NLP涉及到人类语言的理解、生成、翻译、对话等多种任务,可以为人们提供更智能、更便捷、更丰富的信息服务和交流方式。语言模型是自然语言处理的核心技术之一,它可以根据上下文预测下一个词或者生成一段文本。随着深度学习的发展,语言模型也越来越强大和智能,可以应用于各种场景,如机器翻译、文本摘要、对话系统、智能写作等。

  近年来,随着深度学习的发展和大规模语料库的建设,NLP领域取得了突破性的进展。特别是以OpenAI的GPT系列模型为代表的预训练语言模型(PLM),通过在海量文本数据上进行无监督学习,获得了强大的语言表示能力和生成能力,可以应用于各种下游任务,如文本摘要、问答、情感分析、机器翻译等。其中,最新的GPT-4模型更是刷新了多项NLP基准测试的记录。除了在传统的NLP任务上表现出色外,GPT系列模型还展现了惊人的创造力和灵活性。OpenAI基于GPT-3开发了多个产品和服务,如InstructGPT、DALL·E、Whisper等,分别可以根据用户指令生成详细回答、根据文本提示生成图像、根据用户需求生成代码等。其中最引人注目的是ChatGPT,这是一个基于对话格式的交互式模型,可以与用户进行自然、流畅、有趣的对话。ChatGPT可以回答用户的跟进问题,承认自己的错误,挑战错误的前提,拒绝不恰当的请求等。ChatGPT不仅可以作为一个智能助理或娱乐伙伴,还可以作为一个教育工具或创意工具。

  然而,在这场人工智能和自然语言处理的竞赛中,咱中国似乎落后了一大步。虽然中国拥有全球最多的网民和最活跃的互联网市场,但在NLP领域却没有出现像GPT系列模型那样具有国际影响力和创新性的产品和服务。为什么我们搞不出ChatGPT?这背后有哪些原因和障碍?本文将从中文互联网内容的现状和问题入手,探讨中国在NLP领域面临的挑战和机遇。


二、中英文智能语言模型分析

  目前,中文语言模型主要分为两类:基于BERT的预训练+微调的模型和基于GPT-2/3/4的自回归生成式模型。前者主要用于理解和分析中文文本,后者主要用于生成和创作中文文本。

  基于BERT的预训练+微调的模型是目前最常见和最成熟的中文语言模型。它们通过在大规模无标注中文语料上进行预训练,学习中文词汇、句法和语义的通用知识,然后在特定任务上进行微调,适应不同领域和场景的需求。这类模型有很多变种和改进,如RoBERTa、ALBERT、ERNIE等。它们在各种自然语言处理任务上都取得了很好的效果,如机器翻译、命名实体识别、情感分析、阅读理解等。

  基于GPT-2/3/4的自回归生成式模型是目前最新和最前沿的中文语言模型。它们通过在大规模无标注中英文混合语料上进行预训练,学习自然语言生成的通用规则和技巧,然后根据给定的上下文或者关键词生成一段连贯、有意义、有创意的文本。这类模型有很多应用场景,如智能写作、对话系统、内容创作等。

  如今,中国在基于BERT的预训练+微调的模型方面已经取得了一定进展,有很多优秀的研究成果和商业产品。例如,百度推出了ERNIE系列模型,在多个自然语言处理任务上刷新了世界纪录;阿里巴巴推出了智能写作工具“智能创作”,可以根据用户需求生成各种类型和风格的文章;腾讯推出了智能客服平台“微信小助手”,可以根据用户问题快速的提供解决方案。然而,在基于GPT-2/3/4的自回归生成式模型方面,中国仍然落后于国际水平,有很多难题和挑战。例如,目前最大的中文自回归生成式模型——华为Noah’s Ark Lab研发的“领域自适应预训练语言模型”(Radical)仅有10亿个参数,远不及GPT-4的1000亿个参数;目前最先进的中文自回归生成式模型——微软亚洲研究院研发的“超大规模中文预训练语言模型”(CPM)虽然有26亿个参数,但是其训练数据主要来自英文语料,而非中文语料;目前最流行的中文自回归生成式模型——OpenAI提供的GPT-3.5 turbo API(即ChatGPT这个版本)虽然有1750亿个参数,但是其生成的中文文本质量不高,且存在一些安全性和可靠性的问题。中文语言模型与GPT-4等先进的自回归大模型在英文和中文表现上的差异尤为明显。这是由于训练语料的不平衡,其中大部分都是英文语料,而中文语料仅占其中的一小部分。这使得模型在英文语境下的写作、表达和理解能力普遍优于中文。


三、中文语言模型的发展差距与原因

  要想训练出一个优秀的NLP模型,除了需要先进的算法和强大的计算资源外,还需要一个关键因素:高质量、高多样性、高规模的文本数据。而这些数据的来源,主要就是互联网内容。互联网内容是人工智能的原料和燃料,也是人工智能的输出和反馈。互联网内容的质量、多样性、规模和开放性,直接影响着人工智能模型的训练效果和应用效果。因此,互联网内容的生态状况,对于人工智能的发展具有重要意义。

  然而,中文互联网内容的生态状况并不乐观。在过去的十年里,中文互联网内容经历了从繁荣到衰落的过程,出现了一系列的问题和挑战,如内容同质化、低俗化、碎片化、泛娱乐化、封闭化等,导致中文互联网内容的质量下降、多样性缺失、规模不足和开放性不高,曾经的四大名站现在要么消逝,要不就沦为男女厕。这些问题和挑战,不仅影响了互联网用户的体验和需求,也制约了中文自然语言处理模型的训练和应用。以及中文网站数量大幅减少,优质内容稀缺。许多现存平台的内容质量真他妈的堪忧,水军、自媒体、营销号和饭圈现象严重。这些都影响了中文语料库的质量和数量,导致模型难以获取有效和有用的信息。例如,根据统计,2019年中国网站总数为440万个,较2018年减少了30%;2020年中国网站总数为390万个,较2019年减少了11%。而且,这些网站中有很多是重复、无效或者低质量的内容。

具体来看,中文互联网内容存在以下几个方面的问题:

  1.   内容同质化。内容同质化是指互联网上出现大量相似或重复的内容,缺乏创新和差异化。内容同质化的原因有多方面,如平台算法推荐、流量红利驱动、用户习惯影响等。内容同质化导致互联网上形成了信息茧房和回音壁效应,用户难以接触到更广泛和更深入的知识和信息,也难以形成自己的独立思考和判断。同时,内容同质化也降低了互联网内容的多样性和丰富度,使得中文自然语言处理模型难以从中学习到更多样和更有价值的语言知识。

  2.   内容低俗化。内容低俗化是指互联网上出现大量低质量、低水平、低品味的内容,如谣言、谩骂、色情、暴力等。内容低俗化的原因有多方面,如平台监管缺失、用户需求诱导、社会风气影响等。内容低俗化导致互联网上形成了不良风气和不健康氛围,用户容易受到错误引导和不良影响,也容易产生消极情绪和行为。同时,内容低俗化也降低了互联网内容的品质和水平,使得中文自然语言处理模型难以从中学习到更高质量和更高水平的语言知识。

  3.   内容碎片化。内容碎片化是指互联网上出现大量短小、零散、无序的内容,缺乏系统性和逻辑性。内容碎片化的原因有多方面,如平台产品设计、用户注意力分散、信息爆炸等。内容碎片化导致互联网上形成了内容的发展方向。互联网内容的发展方向,不仅取决于内容形式的创新,也取决于内容生态的改善。目前,中文互联网内容面临着同质化、低俗化、碎片化、泛娱乐化、封闭化等问题,这些问题不仅影响了用户的体验和需求,也制约了人工智能模型的训练和应用。

  4.   数据孤岛化:由于行业竞争与垄断,大量数据被封闭在各家的APP和平台中,导致数据共享困难。这些数据是训练和优化模型的重要资源,如果不能有效利用和整合,就会造成资源浪费和效率低下。例如,阿里巴巴、腾讯、百度等互联网巨头都有自己的大数据平台和语言模型,但它们之间很少进行数据交换和合作,导致数据重复、冗余或者缺失。

  5.   技术创新不足:由于缺乏足够的数据、人才、资金和政策支持,中国在大语言模型的技术创新方面还有很大的提升空间。目前,中国的大语言模型主要是基于国外的技术路线和框架进行改进和适配,而没有形成自己的核心竞争力和特色。例如,目前最先进的中文自回归生成式模型CPM是基于GPT-2/3的技术路线进行开发的,而没有采用最新的GPT-4的技术路线。

  当然,这些也并非是简易的事情,需要集体的配合以及那几位大厂的担当,尽管中文语言模型与GPT-4等先进的自回归大模型存在巨大差距,但这并不意味着中文语言模型没有发展机遇和前景。相反,中文语言模型正处于一个快速发展和变革的时期,有很多有利条件和潜力。以下是一些可能的机遇和前景:

  中文市场需求巨大:中文是世界上使用人数最多的语言之一,拥有超过10亿的母语使用者和超过20亿的潜在使用者。中文市场对于各种自然语言处理应用有着强烈和多样的需求,如智能客服、智能写作、智能教育、智能娱乐等。这些需求为中文语言模型提供了广阔的应用场景和商业价值。

  中文数据资源丰富:虽然中文数据存在一些质量和数量上的问题,但相比其他语言,中文数据仍然是非常丰富和多样的。中文数据涵盖了各种领域、主题、风格和形式,如新闻、社交媒体、百科、小说、诗歌等。这些数据为中文语言模型提供了丰富和多样的训练素材和知识来源。

  中文技术创新活跃:虽然中文技术创新还有很大的提升空间,但近年来已经出现了一些积极和有意义的进展。中国在基于BERT的预训练+微调的模型方面已经取得了一定成果,并在一些自然语言处理任务上刷新了世界纪录。中国也在基于GPT-2/3/4的自回归生成式模型方面进行了一些尝试,并取得了一些初步效果。中国还有很多优秀的研究机构和企业在进行大语言模型相关的研究和开发,如清华大学、北京大学、华为Noah’s Ark Lab、微软亚洲研究院等。这些都为中文技术创新提供了动力和支持。

  综上所述,中文语言模型虽然与GPT-4等先进的自回归大模型存在巨大差距,但也有很多发展机遇和前景。中文语言模型需要在数据、技术、应用等方面进行更多的创新和优化,以提高其性能和质量,满足中文市场的需求和期待

  目前看来咱的政策也算是高度重视人工智能领域,总之,中文语言模型是人工智能发展的重要组成部分,也是中国实现人工智能创新发展的重要途径。中文语言模型既面临着巨大的挑战,也拥有着广阔的机遇。我们应该积极应对挑战,抓住机遇,不断提升中文语言模型的水平和质量。

自此,我引用《新一代人工智能伦理规范》所指提出的第八条:“敏捷治理。尊重人工智能发展规律,在推动人工智能创新发展、有序发展的同时,及时发现和解决可能引发的风险。不断提升智能化技术手段,优化管理机制,完善治理体系,推动治理原则贯穿人工智能产品和服务的全生命周期。”



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1