当前位置:首页|资讯|人工智能|百度|商汤|科大讯飞|华为

国产大模型行业分析:竞争格局、发展现状及应用端

作者:艾威斯翔发布时间:2023-10-17

前不久首批大模型产品陆续通过《生成式人工智能服务管理暂行办法》备案,正式上线面向公众提供服务。其中包括:百度文心一言、抖音云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、科大讯飞星火大模型,以及华为、腾讯的大模型产品,共计11家。同时,商汤“商量Sense Chat”、智谱AI智能助手“智谱清言”,百度“文心一言”,百川智能“百川大模型”已经宣布全面向用户开放服务。首批大模型产品完成备案,并陆续向用户开放服务,使得大模型能够大量获得真实用户数据反馈,加快大模型迭代速度,进而不断提升用户体验,同时基于大模型的ToB、ToC应用落地进程也有望加快。

01

大模型概述


1.什么是大模型?

大模型是大规模语言模型(Large Language Model)的简称。大模型主要指具有数十亿甚至上百亿参数的深度学习模型,其具备较大容量、海量参数、大算力等特点。大模型由早期的单语言预训练模型发展至多语言预训练模型,再到现阶段的多模态预训练模型,可实现处理多任务的目标。 

大型语言模型是一种深度学习算法,可以使用非常大的数据集来识别、总结、翻译、预测和生成内容。大语言模型在很大程度上代表了一类称为Transformer网络的深度学习架构。Transformer模型是一个神经网络,通过跟踪序列数据中的关系(像这句话中的词语)来学习上下文和含义。

2.Transformer架构的提出,开启了大语言模型快速发展的新时代

谷歌的BERT首先证明了预训练模型的强大潜力;OpenAI的GPT系列及Anthropic的Claude等继续探索语言模型技术的边界。越来越大规模的模型不断刷新自然语言处理的技术状态。这些模型拥有数百亿或上千亿参数,可以捕捉语言的复杂语义关系,并进行人类级别的语言交互。

解锁大模型时代的钥匙——Transformer的注意力机制。Transformer模型最大的创新在于提出了注意力机制,这一机制极大地改进了模型学习远距离依赖关系的能力,突破了传统RNN和CNN在处理长序列数据时的局限。

在Transformer出现之前,自然语言处理一般使用RNN或CNN来建模语义信息。但RNN和CNN均面临学习远距离依赖关系的困难:RNN的序列处理结构使较早时刻的信息到后期会衰减;而CNN的局部感知也限制了捕捉全局语义信息。这使RNN和CNN在处理长序列时,往往难以充分学习词语之间的远距离依赖。

Transformer注意力机制突破了RNN和CNN处理长序列的固有局限,使语言模型能在大规模语料上得到丰富的语言知识预训练。该模块化、可扩展的模型结构也便于通过增加模块数量来扩大模型规模和表达能力,为实现超大参数量提供了可行路径。Transformer解决了传统模型的长序列处理难题,并给出了可无限扩展的结构,奠定了大模型技术实现的双重基础。

3.参数量的倍数增长是大模型最根本的特点

大模型代表了一种新的预训练-微调范式,其核心是先用大规模数据集预训练一个极大的参数模型,然后微调应用到具体任务。这与传统的单任务训练形成了对比,标志着方法论的重大变革。参数量的倍数增长是大模型最根本的特点,从早期模型的百万量级,发展到现在的十亿甚至百亿量级,实现了与以往数量级的突破。

Transformer架构的提出开启了NLP模型设计的新纪元,它引入了自注意力机制和并行计算思想,极大地提高了模型处理长距离依赖关系的能力,为后续大模型的发展奠定了基础。正是由于Transformer架构的成功,研究者们意识到模型的架构设计在处理复杂任务和大规模数据中发挥着举足轻重的作用。这一认识激发了研究者进一步扩大模型参数量的兴趣。虽然之前也曾有过扩大参数量的尝试,但因受限于当时模型本身的记忆力等能力,提高参数数量后模型的改进并不明显。

GPT-3的成功充分验证了适度增大参数量能显著提升模型的泛化能力和适应性,由此掀起了大模型研究的热潮。它凭借过千亿参数量和强大的语言生成能力,成为参数化模型的典范。GPT-3在许多NLP任务上表现亮眼,甚至在少样本或零样本学习中也能取得惊人的效果。

4.大模型优势及应用前景

与早期的人工智能模型相比,大型模型在参数量上取得了质的飞跃,导致了在复杂任务的建模能力整体上的提升:1)学习能力增强:以应对更复杂的任务;2)泛化能力加强:以实现更广泛的适用性;3)鲁棒性提高;4)具备更高层次认知互动能力:可模拟某些人类能力等。

应用前景:复杂性、高维度、多样性和个性化要求使得大型模型在某些任务上更易获得出色的建模能力;多模态传感器数据的融合分析,尤其涉及到时序数据的处理,如自动驾驶;杂且动态的目标,需要模型从大规模多样化的数据模式中学习,如金融领域中的量化交易策略优化;涉及异构数据源的高维输入空间,如医学图像和报告;需要为不同用户或场景进行个性化建模的定制化需求,如智能助理。

5.大模型商业模式

目前大模型商业应用尚处早期,以API、PaaS、MaaS三种模式为主。当前全球大模型产业落地仍处于早期探索阶段,需要与下游场景企业合作建立大模型商业模式,但下游企业目前对于大模型的理解相对有限,所需要的资源支撑比较薄弱。总的来说,大模型落地可以通过API接口调用付费、或者大厂提供落地所需的开发工具、云平台、服务等的PaaS模式,更进一步是直接提供相关定制好的模型调用的MaaS模式。

02

国内外大模型发展现状及竞争格局


1.全球:中美领先发展,但行业格局或将相对独立

从全球范围来看,中美在大模型领域引领全球发展。其中,基于在算法模型研发上的领先优势,美国大模型数量居全球首位,根据中国科学技术信息研究所、科技部新一代人工智能发展研究中心联合发布的《中国人工智能大模型地图研究报告》,截至2023年5月,美国已发布100个参数规模10亿以上的大模型。中国亦积极跟进全球大模型发展趋势,自2021年以来加速产出,如2021年6月北京智源人工智能研究院发布1.75万亿参数量的悟道2.0、2021年11月阿里M6大模型参数量达10万亿等。截至2023年5月,我国已发布79个大模型,在全球范围占据先发优势。但考虑到数据安全、隐私合规以及科技监管等因素,中美的大模型市场有望形成相对独立的行业格局。

2.海外:OpenAI及谷歌双龙头+Meta开源追赶+垂类特色厂商的格局已较为清晰

从海外大模型格局来看,目前已经形成较为清晰的双龙头领先+Meta开源追赶+垂类繁荣的格局。同时,基于通用大模型能力已相对成熟可用,其上的应用生态已逐渐繁荣。

得益于对先进算法模型的集成以及较早的产品化,OpenAI不仅展现了GPT在人机对话中的超预期表现,同时基于GPT的应用生态也已逐渐繁荣,微软数款产品(Bing、Windows操作系统、Office、浏览器、Power Platform等)、代码托管平台GitHub、AI营销创意公司Jasper等均已接入GPT。

谷歌在人工智能领域持续投入,其提出的IeNet卷积神经网络模型、Transformer语言架构、BERT大语言模型等均对全球人工智能产业产生重要推动。但由于公司团队变动及更谨慎的产品化落地的态度,谷歌前期尚未大规模推出面向C端的AI产品。在ChatGPT快速流行的带动下,谷歌亦推出聊天机器人Bard及PaLM2,并将接入谷歌的协作与生产力工具Workspace以及与Spotify、沃尔玛、UberEats等外部应用融合。

Meta通过开源方式快速追赶,7月发布最新开源大模型LLaMA2,使用2万亿tokens训练,上下文长度翻倍,实现了更强大的表现能力和更广泛的应用场景。

此外,Anthropic、Cohere、Hugging Face等基于各自的垂类特色和定制化服务也在海外AI市场中扮演着重要角色。

3.国内:互联网巨头有望保持领先地位,中小厂商或将面临路径选择

ChatGPT获得良好用户反响并在全球范围引发关注以来,中国头部科技企业(阿里、百度、腾讯、华为、字节等)、新兴创业公司(百川智能、MiniMax等)、传统AI企业(科大讯飞、商汤科技等)以及高校研究院(复旦大学、中科院等)亦加速大模型领域投入。当前国内大模型仍处研发和迭代的早期阶段,各个大模型的性能差异及易用性仍在市场检验的过程当中,预计国内大模型领域竞争格局的明晰仍需一定时间,但是互联网巨头在AI领域积累已久,具备先发优势。

综合上述分析,结合行业竞争要素,并参考海外当前竞争格局,国内大模型赛道有望形成与海外相似的产业趋势,兼具技术、资金、人才和场景优势的头部互联网企业有望成为大模型领域的重要玩家,而中小厂商或将面临路径选择。一方面,中小厂商可以利用自身在垂类场景和数据层面积累的优势,成为聚焦垂类的核心特色玩家;另一方面,基于训练和用户调用带来的算力需求的激增,考虑到资源优势和经济性,中小厂商或将寻求云厂商的支持和合作。

03

国内大模型竞争壁垒


技术投入、核心人才和应用场景构成大模型竞争的核心壁垒。大模型是一个重资源禀赋、高进入门槛的赛道,其对算法模型的有效性、高质量的数据、算力的支撑能力均有极高要求,模型的优化迭代亦有赖于资金和人才的持续投入。此外,大模型的实际落地和行业应用能力也是市场检验的重要标准。

1.算法模型:追随海外技术进展,研发突破是竞争关键

从技术路线来看,国内大模型主要追随海外进展。基于谷歌在人工智能领域更高的影响力以及BERT开源代码,前期我国企业在大模型领域的探索更多参考BERT路线。随着ChatGPT在人机对话领域的超预期表现验证了高质量数据+反馈激励(大模型预训练+小数据微调)的有效性,国内大模型技术路线也逐渐向GPT方向收敛。

尽管模型架构设计的不同对特定任务上的表现有一定影响,但国内大模型厂商在技术上基本同源,从而导致了现阶段较为相似的模型能力,而下一阶段对于GPT方向的研发突破将是竞争关键。

2.算力:互联网厂商在算力资源上具备优势

随着模型参数和复杂度的提升,大模型对算力的需求也在加速增长。当前国内已发布的大模型中,参数规模达到千亿及以上的厂商仅为10个左右,一定程度上体现出各厂商之间算力能力的差异。互联网厂商在算力资源上具备相对优势,主要原因包括:1)互联网企业业务布局多元,用户基数庞大,海量数据高频更新,使得互联网企业自身对算力有大量需求,阿里、字节、百度、腾讯等头部互联网企业是全球芯片及服务器领域的重要客户;2)阿里云、百度云、腾讯云等为国内头部云厂商,在云计算中心、AI算力平台、超算中心等新型高性能计算基础设施上布局领先,如阿里云推出PAI灵骏智算服务,提供覆盖AI开发全流程的平台和分布式异构计算优化能力;腾讯云发布新一代HCC(High-Performance Computing Cluster)高性能计算集群,算力性能较前代提升高达3倍。

3.数据:优质开源中文数据集稀缺,自有数据及处理能力构成模型训练壁垒

得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站、流行内容等,更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,从而导致模型的训练效果受限。因此,大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网时代积累的海量用户、应用和数据,互联网企业在自有数据上更具特色化和独占性,叠加更强大的数据处理能力,从而能够通过数据优势带来模型训练成果的差异。例如,阿里在研发M6时,构建了最大的中文多模态预训练数据集M6-Corpus,包含超过1.9TB图像和292GB文本,涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源,并设计了完善的清洁程序以确保数据质量。百度ERNIE模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据,通过更高质量的数据保障了模型的训练效果。

4.资源投入:互联网厂商重研发投入,资金及人才实力领先

大模型的训练需要较高且可持续的研发投入,头部互联网企业兼具高资本密度和高人才密度优势。资金方面,2022年,腾讯/阿里/百度研发费用达614/567/233亿元,明显领先于行业相关公司。人才方面,根据脉脉人才库,在计算机视觉、深度学习、语音识别、自然语言处理4个人工智能重要的技术方向上,互联网大厂是人才储备最丰富的企业。持续的高研发投入以及极高的人才密度有望驱动头部互联网企业保持在AI及大模型领域的领先优势。

5.场景:业务丰富多元,互联网厂商天然具备落地实践场景

考虑到数据隐私和安全合规,初期通用大模型在行业落地时可能会面临一定的信任问题,从而导致较高的获客成本。而头部互联网平台基于自身在电商、搜索、游戏、金融等领域丰富的业务积累,天然具备落地实践场景。在提高产品效率的同时,也有望率先形成示范效应,从而有助于外部客户和应用的拓展。

04

国内主要大模型及应用端梳理


通过横向对比各应用在完成不同细分领域任务时的效果,以及体验各应用的特色功能,认为各应用间存在差异化的定位:

1)综合能力强:百度文心一言、讯飞星火为“六边形战士”型,在众多细分应用场景有垂类AI助理解决特定任务;通义千问划分相应垂类AI助理,但数量少于前两者;腾讯混元也划分众多细分场景,但仍在内测阶段,关注其正式上线节奏。

2)擅长特定类型任务:智谱清言、豆包分别偏向于办公效率工具、日常生活助手;商量是商汤多模态模型系列日日新中的文本对话应用,系列内其他应用具备图像、视频、3D模态的生成能力;百川智能功能则相对较少,主要围绕文本。

1.百度文心一言大模型

(1)文心一言向全社会开放,生成式AI商用渐进

2023年8月31日,文心一言率先向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”体验。此外,百度还将开放一批经过全新重构的AI原生应用,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。

(2)深耕人工智能,具备全栈自研及丰富下游场景

百度深耕人工智能领域,近10年累计研发投入超1400亿元,具备应用、模型、框架、芯片四层全栈布局、并在各层都有领先的关键自研技术。1)底层AI芯片:昆仑芯片,前身为百度智能芯片及架构部门,后2021年完成独立融资,目前有昆仑心1/2两代量产产品。2)深度学习框架:飞桨平台,集核心框架、基础模型库、端到端开发套件于一体。截至2023年8月,飞桨平台开发者数已达800万、模型数超80万。3)模型层:“文心一言”为“文心大模型ERNIE”版图中一员。4)应用层:包含搜索等丰富下游场景,可将文心等模型应用于具体场景或嵌入具体工具。

(3)文心大模型持续迭代,AI引领商业化变革

今年上半年百度文心大模型更新至3.5版本,年底将推出4.0版本。期待百度文心大模型持续迭代,并在AI应用拓展道路上进行率先探索,预计中长期将对百度的核心竞争力做出贡献。

文心一言首日用户数破百万。据百度官网,8月31日起,用户可在APP或登陆官网体验。据百度官方,文心一言APP发布首日用户数突破100万。从体验来看,文心一言主要有以下特色功能/体验,有望提高用户粘性:

1)汇集众多细分场景的问答功能

在“发现”页面,文心一言就诸多场景提供特定任务的智能问答功能,如学习、情感、娱乐等,其中“学习”内就可为用户提供翻译、大纲生成、复习助手等。

2)有社区生态与指令模板,降低使用门槛

APP端用户可分享与文心一言的对话,供其他用户查看,从而互相学习指令以获得灵感;网页端内,“一言百宝箱”提供各应用场景提供参考的指令。

3)发布插件生态平台,引入第三方能力

9月1日,文心一言插件生态“灵境矩阵”开启内测邀请,首批已有近百家企业入驻,如携程、WPSAI、爱奇艺、汽车之家、猫眼电影、懂球帝等。

目前,文心一言PC端已正式开放3个插件,为说图解图(基于图片进行文字创作)、E言易图(基于数据提供洞察及图表制作)、览卷文档(基于文档的摘要与问答)。

2. 科大讯飞星火认知大模型2.0版本

2023年8月15日,科大讯飞发布星火认知大模型2.0版本,该版本下大模型各项能力均持续提升,重点展示了代码能力和多模态能力的提升,即根据文字或语音要求,自动生成和理解代码、图片的能力。科大讯飞宣布将这些功能同步到其多个产品和业务中,应用领域将不断推广:发布iFlycode智能编程助手,升级讯飞星火语伴2.0,发布星火教师助手,提供模型的私有化部署能力。

星火大模型2.0提升了代码编写过程中代码生成、代码补全、代码纠错和单元测试生成功能。在发布会现场测试中,通过一句话编写代码,便可通过python编写贪吃蛇小游戏,代码生成能力性能卓越。讯飞星火的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶。公司也给出了代码能力进步的明确目标,今年10月24日各个代码纬度能力都会超过ChatGPT,明年上半年要对标GPT4。为了让研发人员更好的应用星火大模型的代码能力,同时发布了全新产品智能编程助手iFlyCode1.0。根据讯飞内部研发效能平台对2000余名员工在1个月内测试使用iFlyCode1.0的成效数据统计,代码采纳率达30%,编码效率提升30%,综合效率提升15%。

讯飞星火首日用户数破百万,兼具细分应用划分、插件功能。据科大讯飞公众号,讯飞星火模型于9月5日正式对公放开,用户通过讯飞星火APP或官网体验,上线首日14小时用户数量超100万。

(1)有多模态能力及多个应用场景

讯飞星火划分出约15个细分应用领域,提供文案创作摘要、文生图、基于图片生成描述类故事、代码纠错与生成乃至文生视频等能力。

(2)有插件生态

讯飞星火也与战略伙伴共同研制插件生态,据体验截至9月中旬APP内已有简历生成、PPT生成、文档问答共3个插件。

允许并鼓励用户自行开发AI助手,数量已破万。讯飞星火的特色功能之一,是允许用户通过PC网页端,自行创建解决特定任务的AI助手。9月上旬,科大讯飞也发起现金激励计划,活动结束后助手热度前十的创作者可瓜分10万元。据科大讯飞公众号,讯飞星火已有约1.4万款助手应用,覆盖营销、创作、编程、聊天、学习等丰富场景,有助于吸引用户。

应用场景涵盖多个ToC、ToB终端,关注后续迭代升级。C端方面,包括科大讯飞AI学习机、讯飞智能办公本、讯飞听见、星火语伴等C端软硬件应用和产品;B端方面,讯飞星火目前已经与超过1万家企业合作对接。到今年10月24日,讯飞星火认知大模型将实现对标ChatGPT3.5的目标(中文超越,英文相当),明年上半年对标GPT-4。关注后续迭代表现。

3.智谱清言

2023年8月31日,北京智谱华章科技有限公司(以下简称“智谱AI”)正式上线首款生成式AI助手——智谱清言。该助手基于智谱AI自主研发的中英双语对话模型ChatGLM2,用户可通过苹果商店AppStore、安卓主流应用市场(华为、OPPO、vivo、应用宝及小米)下载或搜索微信小程序进行体验。

作为基于中英双语对话模型ChatGLM2研发而成的生成式AI助手,智谱清言通过万亿字符的文本与代码预训练,结合有监督微调技术,以通用对话的产品形态成为更懂用户的智能助手,在工作、学习和日常生活中赋能用户,解答用户各类问题,满足用户问询需求。

智谱AI致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司于2020年底开始研发GLM预训练架构,并训练了百亿参数模型GLM-10B,2021年利用MoE架构成功训练出万亿稀疏模型,于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型打造大模型平台及产品矩阵。

今年6月智谱AI将千亿模型ChatGLM升级到二代,效果大幅提升,模型支持的上下文长度扩展到32K,并大幅提高推理速度。基于基座模型能力的增强,智谱清言已具备更强大的性能,在多轮对话当中,作为一个“有知识、有记忆”的AI助手,智谱清言对上下文理解长度已从2K拓展至32K,储备了包括科学、技术、历史、文化、艺术、商业和其他垂直领域的丰富知识,以此保障用户人机对话体验,持续畅聊无压力。目前产品已具备通用问答、多轮对话、创意写作、代码生成以及虚拟对话等丰富能力,未来还将开放多模生成能力。

(1)指令模板功能优化用户使用体验

据体验,智谱清言具备指令模板功能,可以基于用户简单的文字指令,生成最适用的指令模板,或直接就特定场景提供参考模板,用户根据提示增改条件描述后,就能生成更符合需求的回答。

(2)智谱完成B4轮融资,阿里腾讯参投

由AI初创公司智谱华章打造,基于自研的千亿级ChatGLM2模型。据36氪,智谱华章于9月中旬完成B4轮融资,腾讯战投、阿里巴巴战投等多家机构参与投资,投后估值达到约10亿美金。

(3)首个通过分众梯媒投放广告的原生AI应用

据分众传媒官方视频号,智谱清言通过分众电梯LCD投放品牌广告,主打“写文案写代码写周报”功能、提高办公效率。

大模型投放品牌广告,拉开了大模型之间抢夺新用户、抢占用户心智的序幕。密切关注其他生成式AI应用通过分众梯媒等媒体投放广告的进展。

4.豆包

2023年8月17日,字节跳动公测基于云雀大模型开发的AI对话产品“豆包”,有网页端、iOS和安卓客户端,预置了英语学习助手和写作助手两个功能。

云雀大模型的定位是一个自然语言内容生成和内容理解的AI大模型,该模型基于字节机器学习平台开发,它可以通过自然语言处理技术与用户进行对话,回答用户的问题,提供相关的信息和建议。

除了语言产品“豆包”,字节研究团队还曾公布一个多模态大模型的学术研究项目BuboGPT,该模型能够处理包括文本、图像和音频在内的多模态输入,即指,不仅可以理解图像、音频和文本,并将这些理解与文本输入和输出相结合,还可以定位和描述图像中的物体以及声音的来源。

8月31日,字节旗下AI对话应用“豆包”APP正式对公众放开。据体验,豆包主要具备以下特点:

(1)应用场景更偏生活化

豆包应用功能相对简约,功能也更偏向生活场景,主要围绕情感陪伴、旅行规划、日常写作等,应用场景较文心一言、讯飞星火也较少。

(2)为生成的事实性内容提供索引,提高可信度

根据用户需求,若生成的内容对真实性要求较高,豆包会在生成结果末尾附带引用链接,以便用户确认信息真实性,如专业术语、现实世界的事件或地理位置等;若用户的需求仅以聊天、联想为主,则豆包不会生成引用链接,让聊天互动尽可能不古板。

5.商汤大模型

(1)商汤发布“日日新”大模型体系,构建面向AGI核心能力

2023年4月10日,商汤举行技术交流日,发布“日日新SenseNova”大模型体系,展示了问答、代码生成、2D/3D数字人生成、3D场景/物体生成等AI模型应用能力。在落地场景方面,商汤语言大模型在专业文本理解、代码生成和辅助初步医疗问诊领域展现出较强的能力,生成式AI在电商、广告、文旅等领域潜力较大。从商汤大模型体系中,可以看到垂直领域的丰富数据对于大模型落地至关重要,看好具备丰富数据的行业率先通过AI大模型落地实现降本增效。商汤开放自然语言生成、图片生成等API,以及数据标注、模型训练及微调等一系列MaaS(Modelasa Service)服务,我们认为从“卖算力”走向“卖模型”可能是大模型企业发展的一条新商业模式。

(2)1800亿参数“商量”大模型赋能专业知识、代码生成、医疗等垂直场景

商汤发布1800亿参数“商量”语言大模型,主要能力包括:1)长文本理解,相比ChatGPT,SenseChat支持财务、法务等专业领域超长文本知识理解,能够基于用户上传的长文本pdf进行理解和对话。2)代码生成,Visual Studio Code接入SenseChat插件,根据用户指令直接生成代码,在humaneval测试集上,一次通过率为40.2%,据商汤表示该数据高于Copilot;3)赋能行业,已落地新华医院“便捷就医服务”,辅助初步问诊、就医挂号建议等。

(3)大模型+生成式平台,有望驱动垂直行业降本增效

商汤在生成式AI领域耕耘已久,而“商量”大模型进一步赋能原有的生成式平台:1)“秒画”文生图创作平台,支持类似Midjourney的提示词生成图片,用户能够以20张左右图片,单卡A100在5分钟内定制小模型;2)“如影Sense Avatar”AI数字人视频生成平台,通过五分钟的手机搜集图片及音频信息即可生成支持多语言、多风格的数字人;3)“琼宇SenseSpace”3D空间生成平台,将原有1万人•天级别的人工建模工作量缩减到2天即可呈现,涵盖文旅、电商等领域;4)“格物SenseThings”3D物体生成平台,能够完成实时渲染交互,赋能广告、地产等场景。

(4)商业模式:MaaS模式可能成为重要新趋势

商汤日日新大模型开放API体系包含自然语言生成API、图片生成API、视觉通用感知任务API和标注API。此外,商汤还提供了数据标注、模型训练及微调等一系列MaaS服务。近期,英伟达,百度,商汤等企业都提出了类似MaaS的新商业模式,其核心是利用自己已经拥有的通用大模型,帮助企业以专有数据创建专有模型。其中,英伟达提供基于其文字、图像和生物医药模型的大模型训练服务AlFoundations,百度推出文心千帆大模型平台,表示未来云计算商业模式会变成MaaS。拥有大模型的企业,从“卖算力”走向“卖模型”可能成为AI企业发展的一条新商业模式。

(5)多模态能力获得业内广泛认可

1)自然语言应用商量

已对接众多垂直行业。商量于8月31日正式面向广大用户开放服务,底层模型为书生•浦语InternLM-123B,由商汤联合多家国内顶级科研机构发布。商量具备较强的自然语言处理能力,能完成逻辑推理、规划建议、内容创作、情感分析等任务,已经在金融、医疗、汽车、地产、传媒、工业制造等众多垂直行业,同超500家客户建立深度合作。

2)涉及多模态,通过算法备案

其他AI模型均列入9月1日《第二批深度合成服务算法备案信息清单》中。

其中:数字人视频生成平台如影APP:能帮助用户轻松创作数字人短视频,与播报文字实现同步的口型、表情和动作;3D内容生成平台琼宇:为杭州亚运会所有AR应用提供技术支持;3D内容生成平台格物:能应用于三维场景的图像生成,预计也将有APP产品。

6.阿里通义千问 

2022年9月阿里发布最新“通义”大模型系列,其中通用模型层包含通义-M6、通义-AliceMind和通义-CV三类模型,覆盖多模态、自然语言处理、计算机视觉,专业模型层深入电商、医疗、法律、金融、娱乐等行业。

2023阿里云峰会召开,此次大会大规模语言模型(LLM)“通义千问”正式发布,成为第四个通用模型。通义千问支持多轮交互及复杂指令理解、多模态融合以及外部增强API,应用包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等。目前“通义千问”开启正式的限量邀请体验。

阿里云将致力于让AI更普及。对于阿里内部,阿里所有产品将接入通义千问大模型全面升级。目前,钉钉、天猫精灵等产品已接入通义千问测试。对于开发者和企业,1)通义提供多种模型接入和调入方式,基于灵骏平台,其支持各种模型一键部署云上服务,灵活API调用、支持模型微调和定制化。2)推出通义千问-企业专属大模型产品,可以通过Web界面或者专属API开发。

(1)划分细分应用场景,但数量较少

9月13日,阿里云宣布通义千问大模型已首批通过备案,并正式向公众开放,用户可通过官网体验;其中“百宝袋”界面可完成娱乐、效率、生活相关特定领域任务,但相较文心一言、讯飞星火的数量较少。目前通义千问暂不支持图像、音视频等多模态能力。

(2)相较于通义千问网站,更应重视同名大模型在千行百业中的应用

1)率先开源底层同名模型,关注后续在通用、视觉、VR等领域应用。8月,阿里云在AI模型社区魔搭陆续开源了模型Qwen-7B、Qwen-7B-Chat、Qwen-VL,分别为通用、对话、视觉语言模型,成为国内首家发布开源大模型的互联网大厂。Qwen-VL可用于图像标题生成、图像问答、视觉定位、图像中文字理解等场景,我们认为有望对标META的图像分割模型SAM,为国内应用厂商提供更容易获取的模型工具,助力VR/AR应用开发门槛降低。

2)阿里全产品将接入通义千问,赋能集团生态。据今年4月阿里云峰会,阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造,如钉钉、淘宝等,有望推动AI体验快速铺开。

7.腾讯混元大模型

2023年9月15日,腾讯云宣布,腾讯混元大模型首批通过备案,将正式上线,并陆续面向公众开放。腾讯混元大模型是由腾讯全链路自研的实用级大模型,拥有超千亿参数规模、预训练语料超2万亿tokens,已深度应用到多个业务场景中,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等在内的超百个业务和产品,已经接入腾讯混元大模型测试。

腾讯作为中国最大的软件服务商,社交有微信、QQ两个10亿用户级的产品,游戏占中国市场四成甚至更多的市场份额,旗下还有着中国前两大的支付工具,前三大的视频平台,前三大的短视频平台,以及中国最大的音乐App、网文App,此外在办公领域,腾讯会议、腾讯文档、企业微信等产品也有着领先的市场份额。混元大模型背靠腾讯,拥有众多潜在的应用场景,落地的场景越多,用户产生的商业价值、数据也就越多,通用大模型的训练成本及推理成本随之降低,但模型能力却会更强,从而形成飞轮效应。

(1)混元公开发布,但仍在内测中,重视模型的可靠性与成熟度

9月7日,腾讯自研的通用大语言模型混元正式亮相,拥有超千亿参数规模,通过腾讯云对公众开放,但需要申请内测名额。据腾讯,混元能够做到优于业内其他模型的可靠性和成熟度,表现在“胡言乱语”的现象相比主流开源大模型降低了30%至50%,也能识别陷阱问题等。

(2)有多个细分应用场景

在“灵感发现”功能中,用户可让混元解决多个细分领域的创作需求,包括编程、营销、角色扮演等。

(3)已接入腾讯的多个B端、C端应用

据腾讯副总裁蒋杰,腾讯将全面拥抱大模型,目前已有超过50个腾讯业务和产品接入混元大模型测试,并取得初步效果,如面向B端的腾讯云、腾讯广告、腾讯金融科技,也有面向C端的腾讯游戏、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等,AI问答助手微信混元助手小程序也开启内测申请。

凭借微信、腾讯会议等高月活应用,腾讯有望快速普及自身的AI应用,但同时也非常重视产品最终呈现效果,关注混元及相关服务公开节奏。

8.百川智能

2023年9月6日,百川智能正式发布微调后的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本,均为免费可商用的开源大模型。目前在主流中英文通用榜单上,Baichuan2性能领先于Meta于7月19日发布的Llama2,其在中文对话理解方面表现优异,且在开源商用上更加彻底。Baichuan不仅在GitHub、HuggingFace等国际开源社区中上线,最新的Baichuan2也已经上线了国内的魔塔社区、昇思社区,在过去的一个月内,Baichuan系列的下载量超过300万次,为当月下载量最高的开源大模型,Baichuan为大模型开源生态发展贡献了重要力量。未来开源和闭源大模型相互竞争、相互促进,随着Baichuan等开源大模型的进一步发展,将加速技术的迭代与应用的拓展。

(1)聚焦文本,功能较少

8月31日,百川智能对公开放,用户可登录官网体验百川大模型,获得知识问答、文本创作等体验,目前功能相对较少。

(2)国内首发开源模型,文本能力表现较好

今年6-8月内,百川相继发布了3个参数级别的通用大模型,其中70亿、130亿参数模型开源可商用,为国内首家开源模型,在Huggingface下载量已突破三百万,Baichuan-13BChat(V2)位列8月SuperClue中国产大模型榜首;而530亿的模型则在知识性上表现优异,擅长知识问答、文本创作等,未来将开放API。

(3)开发团队已获得业内广泛认可

百川智能成立于23年4月10日,由前搜狗公司CEO王小川创立,核心团队多来自搜狗、百度、华为等头部互联网公司的AI人才。据官网,百川智能已经有诸多合作伙伴,涉及腾讯、阿里、字节等互联网大厂,顺丰、农行等知名企业。

9.其他AI应用梳理:百度输入法、给麦、筑梦岛

后续有多个AI功能将上线,可关注相关产品体验。9月1日,网信办发布第二批境内深度合成服务算法备案信息(2023年8月),共有110个算法获得备案,不仅涉及文心一言、智谱清言等原生AI应用,也有主流互联网产品,如抖音、快手、淘宝、爱奇艺、美图秀秀等。我们认为,除了原生AI应用,也应关注AI功能在现有互联网产品中的引入,有望在现有用户中快速普及,优化现有产品体验同时提高用户对AI体验的认知。

下面梳理了近期引入AI功能的主流互联网产品,百度输入法、盛天网络给麦、阅文潇湘书院筑梦岛。

(1)百度输入法:AI辅助日常沟通,关注其他百度生态应用升级

百度输入法借文心一言实现全面升级,提高日常沟通效率。文心一言向公众开放的同日,百度输入法也全面升级,12小时使用人数破百万。本次更新主要上线“超会写”功能,可以帮助用户撰写、润色文案、辅助创作,提高用户在日常、工作沟通,或写评论、社媒创作中的效率。

后续还将以AI重构搜索、文库等应用。百度还将开放一批经过全新重构的AI原生应用,包括百度搜索、百度APP、百度文库、百度电商等产品,让广大用户充分体验生成式AI的理解、生成、逻辑、记忆四大核心能力。我们认为,文心一言的放开将加速上述应用的上新节奏。

(2)给麦&带带电竞:以AI丰富社交体验

盛天网络近期正式上线音乐社交APP“给麦”。给麦为95后音乐爱好者提供一系列新型社交玩法,如连麦、K歌合唱/练歌、AI声音进化、推理社交游戏、语音开黑交友等,用户也可以为主播打赏、一对一私聊等,满足音乐娱乐及社交需求。带带电竞连通给麦,提供游戏付费陪玩及社交体验。

带带电竞为公司2015年发布的游戏社交APP,据体验,其与给麦APP实现打通,二者共享直播间,用户通过直播间与主播互动、打赏以外,还可以在带带电竞获得游戏社交、陪练、技能分享体验,用户需为不同的游戏、时长、陪玩用户下单不等金额。

给麦推出“AI歌声进化”功能,实现人声AI合成。该功能类似“AI孙燕姿”,据体验,用户按APP提示录制约1分钟的声音,“给麦”通过AI模型算法训练后,生成用户自己的声音要素,让用户尝试不同语种、风格的歌曲。据观察目前可合成的歌曲有13首,仍在不断扩充。

给麦后续将上线AI歌手、AI-DM等体验。据中国证券网,给麦还将推出AI歌手/主播功能,让用户对歌手做个性化配置,实现千人千面千音体验;也将推出推理社交海龟汤游戏及在线剧本杀的AI-DM(剧本杀主持人),借助AI多轮对话记忆、逻辑推理能力,让用户随时随地畅玩。盛天网络还表示,后续还将推出全民演唱会和元宇宙音乐节等AI社交玩法。带带电竞也在探索AI虚拟陪伴等体验,关注后续进展。

(3)筑梦岛:定位AI情感陪伴体验,关注阅文集团AI布局

类似Glow,筑梦岛提供AI情感陪伴体验。阅文集团旗下女生向网文平台潇湘书院App,于8月11日开启内测“筑梦岛”AI聊天功能,体验类似于Glow,用户可以自行创建虚拟人的人设、性格、头像,乃至创建特定的背景故事,从而与虚拟人进行更具代入感的对话,获得情感陪伴体验。

关注阅文集团AI布局进展。据晚点LatePost对阅文CEO侯晓楠的采访,AI是阅文甚至整个产业都从没有面对过的新机会。阅文集团已经在多个领域开启AIGC的内测或内部效率上的应用,如作家可以用作家助手辅助创作,用户可以和IP角色对话,以及漫画有声等开发环节,已经看到不错的效果。


05

国内大模型未来发展方向


1. 大模型正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力量

随着前沿技术推动产业全链条升级,未来从田间到产线,从实验室到便利店,大模型可能会无处不在。从大模型应用类型来看,国外研发的大模型主要以通用大模型为主,而我国国产大模型更加贴近产业端,呈现出行业大模型占比较高的发展形态。“以大模型生成技术为核心,人工智能正在成为下一轮数字化发展的关键动力,为解决产业痛点带来了全新的思路。

大模型的价值在于应用,要在多样化的实际应用场景中赋能智能经济与智能社会的发展。除了对话、写诗、作画等应用之外,要将大模型切实投入到城市发展、金融科技、生物医药、工业制造、科学研究等领域,在实体产业落地,为社会经济带来实实在在的价值。事实上,利用大模型加速千行百业的数字化、智能化转型,深耕实体经济行业,正在成为业界的共同选择。

2. 加快布局大模型及其相关产业,尽快实现关键性突破,建议从算力、数据等方面进一步夯实国产大模型根基

大模型的性能主要受算力、数据、算法三方面因素影响。在算法方面,国产大模型与国际先进水平相比没有根本性差异,基本都是围绕深度神经网络、注意力机制、人工调优等基础算法上进行模型结构或局部算法优化,而在算力、数据等方面则与国际先进水平存在差距。

加快布局大模型及其相关产业,尽快实现关键性突破,建议从算力、数据等方面进一步夯实国产大模型根基。

(1)加快推进算力基础设施建设

推进国家重大算力基础设施建设,并以此为基础进一步形成覆盖全国的算力网络,使得算力的供给与使用像电网、水网一样触手可及。此外,建设技术创新中心、生态实验室等平台,加强中试与验证,带动产业链上下游企业共同攻关突破新技术、研发新产品。

(2)建立可信数据联盟

为国产大模型训练提供安全的高质量数据,组建面向人工智能大模型的可信数据联盟,提供高质量的丰富中文语料库,打造数字时代“四库全书”。

(3)打造关键领域大模型建设的标杆示范工程

发挥标杆示范工程的引领带动作用,带动各行业积极融入大模型发展进程,加快形成一批符合国家需求的软硬件产品和解决方案,形成需求牵引供给、供给创造需求的良性循环。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1