今年以来,以“ChatGPT”为代表的人工智能技术在全球范围内掀起新的高潮,拉开了全球“人工智能”技术竞技的帷幕,引发了新一轮人工智能应用热潮,谁能率先落地,谁就能在此次人工智能革命中占得先机,成为时代变局的领航者。
值此之际,由四川省大数据中心指导,成都传媒集团、四川省大数据发展联盟联合主办,成都商报社承办,红星新闻、红星资本局协办,驰星创投战略合作的2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会(下称“大会”)将于12月28日在成都市正式举办。
一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
红星新闻记者邀请到中国软件评测中心(工业和信息化部软件与集成电路促进中心)人工智能研究测评事业部梁斌博士展开对话。梁斌表示,持续推进人工智能大模型检验检测技术与方法的研究,是促进通用人工智能健康快速发展的保障。
以下是对话实录:
AI大模型的检验检测技术
是促进通用人工智能发展的保障
红星资本局:您提到“持续推进人工智能大模型检验检测技术与方法的研究,是促进通用人工智能健康快速发展的保障”,如何理解这句话?您目前主导的研究方向是什么?
梁斌:众所周知,人工智能的发展不是一帆风顺的,经历过起起落落。最近一次就是2022年底ChatGPT大模型引发的全球关注和创业热潮,不少业内人士认为2023年是通用人工智能元年。
这一年内,国内外各种大模型如雨后春笋般涌现。随着模型的快速增大和复杂度的提高,如何保证模型的准确性、可靠性和安全性就成为保障人工智能更好更快发展的关键因素,而模型泛化能力显著提升、“越来越像人”,对人工智能大模型检验检测技术与方法提出了更高的要求。
中国软件评测中心(以下简称“中心”)作为工业和信息化部直属事业单位和国内权威第三方检测机构,一直在人工智能领域深耕不缀。中心围绕国内外人工智能发展战略、人工智能技术与产业发展、人工智能场景化应用及检验检测等方向开展专题研究和攻关,形成诸多研究成果。我所在的人工智能研究测评事业部主要从事人工智能相关的产业研究和技术产品应用检测,而我则主要从事人工智能场景化应用与智能系统测评工作。
红星资本局:从整个大模型行业来看,您认为什么样的检验检测标准才是适用性强、认可度高的?
梁斌:大模型技术发展日新月异、能力越来越多元,相关的检验检测技术和方法也要紧跟发展,很难有一个公认的检验检测标准能满足适用性强、认可度高这些要求。以我们之前的测评经验来说,只能以一个概要性的标准作为指导,再根据实际测试对象进行测试需求对接,最后依据测试需求进行后续工作。
大多数大模型语言能力较强
逻辑推理能力较差
红星资本局:在今年9月的2023世界计算大会上,中国软件评测中心人工智能研究测评部发布了《大语言模型测评分析报告》,对文心一言、讯飞星火等9款主流大模型进行测评。此次评测的标准和维度是什么?
梁斌:为客观评估大规模预训练语言模型能力,中心依托人工智能场景化应用与智能系统测评工信部重点实验室,编制了《人工智能 大语言模型测评规范》,从基础通用能力、行业领域知识、安全能力三大维度(具体指标如下图),对文心一言、讯飞星火、智谱清言、360智脑、豆包、通义千问、天工、百川、MINIMAX等9款主流大模型进行测评,分析大模型能力表现,形成《大语言模型测评分析报告》,相关成果已在2023世界计算大会上发布。
红星资本局:上述评测中,国内9款主流大模型表现如何?又有哪些不足?
梁斌:在基础通用能力方面,大多数大模型表现良好,语言理解能力较强、对话问答准确率较高、生成内容可读性较强,部分模型还具备“搜索增强”等功能;在行业领域知识方面,各大模型基本具备了各行业领域的基础知识,对概念、分类、现状、趋势以及简答、论述题目等,能够提供基本正确的回答;在安全能力方面,当涉及违背道德、偏见歧视、侵犯隐私、黄色暴力、违法等内容提问时,各大模型基本能甄别并妥善处理,或给予正向引导,或拒绝回答。
存在的不足主要表现为生成内容存在“幻觉”现象,我们计算错误较多,逻辑推理能力较差,复杂代码编程能力也有待提升。
国内“百模大战”是市场行为
需要靠市场的优胜劣汰
红星资本局:您对目前国内“百模大战”的现状怎么看?在今年互联网大会时,李彦宏提出不建议所有的公司all in AI,使用大公司的大模型即可。您怎样看待种观点?
梁斌:目前国内已发布200多个大模型,呈现出“百花齐放”的态势。这种情况充分说明了国内各界对于大型模型技术的发展和应用前景持有非常积极的态度,产学研用的积极投入也有助于整个产业生态的繁荣和发展。与国际一流水平相比,国内大模型仍存在一定差距,也存在一些泡沫的倾向和同质化现象。
李彦宏提出的观点主要是基于资源利用效率和应用需求考虑。这种观点有一定的合理性。人工智能技术的研发需要投入大量的资源和资金,包括数据收集、模型训练、硬件设备等方面的投入,对于小型公司和创业公司来说可能会带来巨大的负担和风险。按照信息技术产业发展的规律,业内普遍认为,最终国内基础大模型最多可能仅有数家,而更多的企业会基于基础大模型开发应用,满足不同应用场景和业务需求。
而目前国内“百模大战”是一种市场行为,最终谁能脱颖而出,也是要靠市场竞争、优胜劣汰,其中可能有创业公司成为“黑马”,如目前引领全球大模型发展的正是创业公司OpenAI。
2023人工智能大模型基准测试科创发展大会举办
推动大模型技术的发展和应用
红星资本局:随着通用人工智能的快速发展,多地密集发布人工智能利好政策。您认为国内人工智能行业还有哪些领域的政策尚属空白?为推动我国人工智能健康发展,您有什么建议?
梁斌:我个人觉得,尽管国内已经发布了大量的人工智能利好政策,但是随着通用人工智能的快速发展,仍然有一些领域可能需要进一步完善,如数据治理和隐私安全、知识产权界定、社会伦理道德等方面,需要相关支持政策或规范。
为推动我国人工智能健康发展,一是需要政府加强政策支持和引导,鼓励和支持企业、研究机构和高校等加大人工智能技术研发;二是建立完善的法律法规体系,包括数据隐私保护、知识产权、伦理道德、责任归属等方面;三是加强人才培养和引进力度,建立相关专业的教育体系、实践机制等;四是推动产学研用深度融合,推动技术创新、产业升级、应用普及。
红星资本局:此次举办的“2023人工智能大模型基准测试科创发展大会暨中西部数字经济峰会”的意义是什么?将对行业带来哪些影响?
梁斌:2023人工智能大模型基准测试科创发展大会暨中西部数字经济峰会的举办意义主要有以下几点::
一是通过展示和评估不同大模型的功能性能,推动大模型技术的发展和应用;二是汇聚中西部地区的优秀企业、研究机构和人才,共同探讨促进数字经济的创新发展;三是通过论坛、比赛、路演等多种形式活动,促进产学研用的深度融合;四是吸引更多的社会公众关注人工智能行业,夯实人工智能的群众基础;五是拓展人工智能技术的应用场景和范围,推动各领域之间的深度融合和创新发展。
红星新闻记者 强亚铣
编辑 杨程