AI大模型是人工智能迈向通用智能的里程碑技术。它的出现,让很多产业人士认为这项技术会改变信息产业格局,即基于数据的互联网时代和基于算力的云计算时代之后,将进入基于大模型的AI时代。
随着ChatGPT迅速破圈,AIGC被看作继PGC、UGC之后新型利用AI技术自动生产内容的方式。相比于小模型数据有限、能力有瓶颈,定制化、碎片化情况严重,以及缺乏规模化复制和涌现能力,AI大模型则具备多个场景通用、泛化和规模化复制等诸多优势,被视为是实现 AGI(通用人工智能,Artificial General Intelligence)的重要方向。
而AIGC的快速迭代演变,让AI大模型技术席卷全球,成为最炙手可热的技术之一。从国外的谷歌、微软、英伟达,到国内的阿里、百度,都在不遗余力布局AI大模型。
可以说,作为近年来最为热门的AI细分领域 ,AI大模型是人工智能迈向通用智能的里程碑技术。它的出现,让很多产业人士认为这项技术会改变信息产业格局,即基于数据的互联网时代和基于算力的云计算时代之后,将进入基于大模型的AI时代。
那么,究竟什么是AI大模型?它是如何发展起来的,经历过哪些过程?其产业应用价值又有多少?今天,《中国科技信息》将一一作出解答。
“大数据+大算力+强算法”结合的产物
AI大模型是“大数据+大算力+强算法”结合的产物,凝聚了大数据内在精华的“隐式知识库”。包含了“预训练”和“大模型”两层含义,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。
从参数规模上看,AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破;从模态支持上看,AI大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。
极高的计算和存储需求令人“喜忧参半”
在AI大模型兴起之前,AI模型基本上都是对特定应用场景需求进行训练的,即小模型。它属于传统的定制化、作坊式的模型开发方式。这也意味着除了需要优秀的产品经理准确确定需求之外,还需要AI研发人员扎实的专业知识和协同合作能力完成大量复杂的工作。这就导致了模型无法复用和积累,使得AI落地的高门槛、高成本与低效率。
而大模型在研发时就具备了更标准化的流程,它通过从海量的、多类型的场景数据中学习,并总结不同场景、不同业务下的通用能力,学习出一种特征和规则,成为具有泛化能力的模型底座。
不过,这个AI大模型“引以为傲”的优势,也成为了它饱受争议的焦点。一方面,因为AI大模型具有很高的计算和存储需求,需要使用极为强大的计算设备和高效的算法才能训练和应用,所以参数量一般可以达到惊人的数十亿或者数千亿。
例如OpenAI的GPT系列,最开始的GPT-1拥有1.17亿个参数,到GPT-3的参数已经到达1750亿个,最新的GPT-4没有给出具体的参数量,但根据推测,它或将接近万亿。而 Google 的 AlphaGo 模型则具有超过 1 亿个参数。对此,一些研究人员正在寻找更加高效和环保的方法来训练大模型,例如使用低功耗芯片、开发更高效的算法和优化训练流程等。
另一方面,大模型的部署也需要考虑到实际应用中的资源限制和延迟要求。一些研究人员正在研究如何在保持模型性能的同时,减少模型的大小和计算量,以便更好地适应实际应用的需求。
总之,大模型的发展带来了更加精准和高效的机器学习和人工智能应用,但也需要在计算资源、环境和应用场景等方面进行综合考虑和优化。因此,大模型的开发和应用通常需要大型公司、研究机构或者富有的个人等拥有足够的资源来支持。
全球AI大模型生态竞争“热火朝天”
有人说,人工智能的下一阶段竞争是大模型的生态竞争。国际上,谷歌、微软、Facebook、OpenAI 等科技巨头纷纷推出了各自的 AI 大模型,如 GPT-3、BERT、T5、DALL-E 等,它们在自然语言处理(NLP)、计算机视觉(CV)、多模态融合等领域取得了令人瞩目的成果,展现出了强大的智能能力和广阔的应用前景。
而抛开已经在AI大模型研发和应用已经趋于成熟的国际企业,我国企业在该领域也呈现一片“热火朝天”景象。
在2021年,华为发布了首个中文千亿级的盘古模型,进一步增强中文大模型研究影响力;中科院自动化所提出首个三模态的紫东太初模型,预示着AI大模型进一步走向通用场景;百度在2022年发布10个产业级知识增强的ERNIE模型,全面涵盖基础大模型、任务大模型、行业大模型。
不仅如此,阿里的“M6”、腾讯的“混元”、中科院自动化所的“紫东太初”、百度和鹏城实验室的“ERNIW 3.0 Titan”、清华大学的“八卦炉”等。其中参数规模超过千亿的华为云的“盘古”大模型同样值得关注。
可以说,大模型的真正意义在于改变了 AI 模型的开发模式,将模型的生产由“作坊式”升级为“流水线”。而模型开发模式的转变,使得 AI 技术在落地时拥有更强的通用性,可以泛化到多种应用场景。由此利用大模型的通用能力可以有效应对多样化、碎片化的AI应用需求,为实现规模推广AI落地应用提供可能。
关注公众号了解更多资讯
《中国科技信息》杂志社
主管单位:中国科学技术协会
主办单位:中国科技新闻学会
内容转载请联系微信:zkxxx1999
在线投稿平台:www.cnkjxx.com
投稿电话:010-68003059
寻求报道、内容合作,请联系微信:15811564659
杂志收录情况:《中国知网》《中国期刊核心期刊(遴选)数据库》《中国学术期刊综合评价数据库(CAJCED)统计源期刊》《中国期刊全文数据库(CJFD)》《中国科协、中国图书馆学会(解读科学发展观推荐书目)》