日前,IDC 发布《AI 大模型技术能力评估报告,2023》。该报告指出,“百度 AI 大模型整体竞争力位于领先水平,在模型能力、工具平台、生态布局以及行业覆盖上优势明显,并已提前进入商业化落地探索阶段”。
内容创作、图片生成、智能编程、对话问答……如今,AI 大模型已然具备诸多通用能力。它的诞生,让人类通过自然语言就能与其进行交互,极大程度地促进了社会生产力的释放。
以 AI 驱动的大模型技术突破,也被看作是人工智能发展的一个重要里程碑。目前,市场上已经出现各式各样的大模型,与之同时产生的,是各类大模型评测标准和评估报告。《AI 大模型技术能力评估报告,2023》,就是 IDC 面向 AI 领域推出的一项权威报告。据悉,本次评估涉及 9 家大模型技术厂商。其中,由百度开发的文心大模型 3.5 取得 12 项指标的 7 项满分,获得综合评分第一、算法模型唯一满分和行业覆盖唯一满分的佳绩。
图丨IDC《AI 大模型技术能力评估报告,2023》:百度 7 项满分、综合评分第一(来源:资料图)
百度文心大模型 3.5 拿下 IDC 技术评估 7 项满分
IT 市场研究和咨询公司 IDC 在分析咨询领域深耕了五六十年,对信息技术和高科技行业发展趋势的跟踪覆盖全球 110 多个国家。目前,其所发布的数据和指标,已经成为诸多行业和企业的重要参考依据。
2023 年 3 月,IDC 正式启动《AI 大模型技术能力评估报告》项目。据了解,该报告与其他机构发布的同类报告存在几点不同。首先,其是国内最早启动的大模型评估报告。其次,研究周期持续 4 个月,在对不同类型的不同厂商进行全面覆盖的同时,也保持对大模型能力迭代与演进的持续跟踪。同时,评估范围非常全面,涵盖产品、服务、行业这三大维度和算法模型、通用能力、创新能力等十多项指标。此外,其首次提出的一套行业认可的技术评估标准,对发展大模型过程中的去伪存真也有一定借鉴意义。
如上所述,百度文心大模型 3.5 在 7 项指标中获得满分。具体来说,这 7 项指标分别是算法模型、通用能力、创新能力、平台能力、行业覆盖、能源和生态合作。
图丨IDC《AI 大模型技术能力评估报告,2023》:百度获算法模型、行业覆盖唯一满分(来源:资料图)
其中,算法模型是衡量产品能力的核心要素,涉及大模型训练的数据集来源、算法结构、模型的预测和推理等方面,扮演着驱动大模型综合效果实现的底座角色。百度文心大模型 3.5 获得该指标下的唯一满分,足以说明其算法模型的先进性和优越性,以及具备支撑更为全面的行业覆盖的能力。
行业覆盖考察的则是大模型的企业级客户数量,以及落地的具体行业数。由于实现大模型应用落地是大模型发展的“最后一公里”,因此该指标不仅是当下大模型厂商的关注重点,也已经成为衡量大模型产业落地的重要环节。那么,显而易见,在这方面获得唯一满分的百度文心大模型 3.5,有望在不远的未来实现千行百业落地应用,并助力 AI 普惠化发展。
需要说明的是,文心大模型不是只有一个模型,其包含 30 多个大模型,涵盖基础大模型、任务大模型和行业大模型三级体系。
图丨百度文心大模型全景图(来源:资料图)
此外,大模型出现以后,传统上以“芯片-OS-应用”为主要架构的 IT 技术栈也在发生改变。在这方面,百度提出“芯片-框架-模型-应用”四层技术栈,每一层都包括百度自研的多个代表性技术。比如,在芯片层,开发通用人工智能芯片“昆仑芯”,在框架层,开发深度学习平台飞桨,在模型层,有自研文心大模型,在应用层,则有相应的模型应用生态。这些都是百度 AI 大模型具备的优势,也是 IDC 重点关注的内容。
那么,百度之所以能够取得此次的好成绩,主要得益于其产品技术能力和行业应用能力。
新版文心一言以文心大模型 3.5 为基础模型,综合实力已超 ChatGPT
早在 2018 年,百度就开始布局文心大模型。2023 年 3 月,依托文心大模型的技术积累,发布全新一代知识增强大语言模型文心一言。
如今,以文心大模型 3.5 为基础模型的新版文心一言,能力较今年 3 月又实现极大提升。据多个公开测评结果,新版文心一言的综合能力已超过 ChatGPT,并在某些方面具备超出 GPT-4 的表现。
整体来看,文心一言基于预训练大模型即文心大模型 3.5,持续从海量数据和大规模知识中融合学习,具备知识增强、检索增强和对话增强的技术特色。
如果将预训练大模型与人类比,其就像已经阅读过许多书籍的孩子。为了使其智力水平更加完整全面,百度在建设过程中投入高达 90% 的时间和精力。不过,在这基础上,还需要对其进行一系列人为指导,让模型在通过不断的练习提升效果的同时,也能按照人类希望的方式回答问题。这些工作完成后,一个基础的大语言模型才得以形成。
为了提高大模型的实用性,使其在事实准确性、时效性等方面更上一层楼,百度还开发了三大增强技术。
知识增强技术是让大模型类比人类采用知识体系的方式进行学习的技术,通过内化学习和知识外用的方式,帮助模型取得更好的学习效果。检索增强技术是一种以搜索方式满足新数据获取的技术。文心一言采用新一代端到端检索架构,能够很好地解决信息时效性问题。对话增强技术是通过上下文理解、记忆机制等技术,进一步提升大模型生成回答的连贯性和逻辑性。
在基本技术框架之外,文心大模型 3.5 也在以下五个方面实现新的技术突破。
第一,基于飞桨最先进的技术,如自适应混合并行训练技术、混合精度计算等,加快模型迭代,实现基础模型的升级。
第二,在精调技术上实现创新,通过多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化和双飞轮结合的模型优化,进一步提升模型的效果和场景适配能力。
第三,理解并提取用户提示和需求输入中涵盖的知识点,并将其变成指导大模型生成工作后的指引,进而提升大模型对世界知识的掌握和运用能力。
第四,综合多种方法,构建大量逻辑知识,提高模型的逻辑推理能力。
第五,在大模型上建立插件机制,进一步拓展大模型能力。据介绍,目前百度搜索和 ChatFile 这两个插件已经应用于文心一言。
上述技术的协同发展,让文心大模型 3.5 的效果实现很好的提升。据悉,目前文心大模型 3.5 的训练速度和推理速度,相较之前分别提升 2 倍和 30 倍,整体模型效果提升 50%,成本也实现大幅下降。
下面就让我们通过一些测评,来实际地体验下文心大模型 3.5 的能力。
对于新闻从业者来说,撰写新闻稿的能力是必须具备的。但在新闻点众多、重要新闻事件频发的情况下,新闻工作者的时间和精力有限,常常无法完成所有新闻报道的撰写。如果能有一个可以生成新闻稿的 AI 工具,就能在一定程度上助力新闻工作者解决上述问题。下面,笔者使用文心一言新闻稿生成的功能,测试一下具体的效果。
我们都知道,7 月 20 日 21 时 40 分,神舟十六号乘组圆满完成了出舱活动。那就让文心一言以该事件为主题,生成一篇新闻稿。
图丨实际测评(来源:测评截图)
可以看出,由文心一言生成的新闻稿,行文规范、语句流畅、逻辑性强,已经能够基本满足工作需求。
试想一下,如果新闻工作者有文心一言的加持,就能极大程度地减轻工作负担,提升工作效率。
如上所说,ChatFile 插件已经应用于文心一言上,我们可以利用该插件来测试一下文心一言在长文档摘要、问答、润色等功能上的效果。
2022 年 8 月,中国互联网络信息中心发布了第 50 次《中国互联网络发展状况统计报告》。该报告都有哪些核心内容呢?让文心一言来帮我们做下总结吧。
图丨实际测评(来源:测评截图)
除了全局性总结以外,我们还可以就报告的局部内容,让文心一言帮我们做个总结。比如,当我们向文心一言输入:5G+ 工业互联网应用主要在哪几个行业落地?
图丨实际测评(来源:测评截图)
通过上述测评我们可以看出,基于 ChatFile 插件,以后用户可以方便快捷地掌握长文档的主要内容,并进行有针对性的学习。
联合企业发布行业大模型,朝着大规模产业化落地方向迈进
现如今,AI 大模型已经处在向大规模产业落地迈进的阶段。
就文心大模型而言,其以“源于产业实践、服务于产业实践”为发展定位,形成支撑大模型产业落地的关键路径,并在能源、医疗、工业、金融等领域开展了广泛全面的业务场景探索。
具体来说,百度在去年已经与国家电网、深圳燃气等企业单位联合发布 11 个行业大模型。这些行业大模型是在通用大模型的基础上、加入行业自有数据和经验搭建而成的,可以更加精准地适配各行业的应用需求。比如,百度和深圳燃气推出的燃气行业大模型,就能有效地解决风险识别、运营繁杂等难题。
另外,据了解,与同类大模型相比,文心大模型的产业应用规模已位居中国首位,有 15 万家企业申请接入文心一言系统。
有数据统计,自去年年末 ChatGPT 发布至今,国内各大企业已经先后发布超过 90 个 10 亿规模以上的大模型。从中不难看出,我们已然进入大模型时代,生成式 AI 的发展,或将给我们的产业结构,甚至于整个社会都带来深刻的影响。
百度表示,从大模型产业化来看,目前有三个层面的挑战亟待解决:首先是模型训练难度大、成本高;其次是对算力规模和性能要求高;同时对海量数据进行收集、挖掘、建设和筛选,也是十分浩瀚的工程。
其认为,如今大量大模型蓬勃发展的态势只是一个阶段性现象,各企业机构在未来攻克上述挑战和不断迭代大模型的过程中,会逐渐找到自己的定位,并走向更为细分的发展方向。也就是说,今后大模型将呈现少量集中的发展趋势,既不需要大量大模型的存在,也不需要将每个应用都进行大模型开发。可以通过封装大数据、大算力和大算法,建设自动化、数字化和标准化的生产模式,为千行百业的应用提供高效支撑。对于百度来说,其正在坚持不懈地朝着这条路径迈进。