智东西(公众号:zhidxcom)
作者| 香草
编辑| 李水青
智东西5月9日报道,今日,阿里云正式发布通义千问2.5大模型,其性能全面赶超GPT-4,对标GPT-4 Turbo。相比上一代2.1版本,通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上分别提升9%、16%、19%、10%。
▲通义千问2.5发布
通义千问APP全面升级,品牌更名为“通义APP”,免费开放通义全栈能力,覆盖文生图、智能编码、文档解析、音视频理解、视觉生成等,主打“All in one”。
其中在代码方面,CodeQwen1.5凭借优秀的代码生成能力、长序列建模能力、代码修改能力和SQL能力登顶Big Code模型排行榜,基于该底层模型,通义灵码正式推出企业版。
▲CodeQwen1.5成为全球领先的代码大模型
同时,阿里云百炼大模型平台全面升级2.0,首家托管百川等系列三方模型,率先兼容LlamaIndex等开源框架,用户通过5到10行代码即可搭建RAG应用,让大模型拥有“最强外挂”。
一、通义千问2.5追平GPT-4 Turbo,1100亿参数开源模型超越Llama 3
阿里云首席技术官周靖人提到,经过近2年的持续进化,通义模型系列已成为最受中国企业欢迎的大模型。
目前,通义大模型通过阿里云服务的企业客户数已超过9万,通过钉钉服务企业超220万,其中月活超170万。此外在Hugging Face、魔搭等开源社区,通义开源模型下载量累计超700万。
▲通义千问在企业中的应用
今天发布的通义千问2.5,在理解能力、逻辑推理、指令遵循、代码能力上相较于2.1版本,分别提升9%、16%、19%、10%。
在上海AI实验室推出的权威基准OpenCompass上,通义千问2.5得分超越Claude 3 Opus,追平GPT-4 Turbo,成为国产大模型首位。
▲OpenCompass测评基准排行
此外,阿里云还发布了最新开源模型Qwen1.5-110B,该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Llama 3 70B,在Hugging Face开源大模型排行榜Open LLM Leaderboard上登上榜首。
▲Qwen1.5-110B登上Hugging Face开源大模型榜首
二、基础模型支持1000万字上下文,推出企业版通义灵码
据周靖人介绍,在基础能力之外,通义千问2.5还拓展了文档处理、音视频理解、智能编码等多种能力。
在文档处理上,通义千问2.5支持单次最长1000万字、100个文档,覆盖PDF、Word、Excel等多种文件格式,可解析标题、段落、图表等多种数据格式。
▲通义千问2.5的文档处理能力
在音视频理解方面,通义千问2.5融合语音、LLM、多模态、翻译能力,具备实时语音识别、说话人分离功能,能够提取全文摘要、总结发言、提取关键词等,可同时上传处理50个音视频文件。
周靖人透露,该能力已在多个行业广泛集成,包括钉钉的会议智能纪要功能、新东方的AI课堂笔记功能、蚂蚁面试等。
▲通义千问2.5的音视频理解能力
在智能编码方面,通义灵码掌握Java、Python、Go、Java、Type、C/C++、C#等200多种编程语言,可以辅助写代码、读代码、查Bug、优化代码等。其底层模型是通义千问团队开发的CodeQwen1.5,具备优秀的代码生成能力、长序列建模能力、代码修改能力和SQL能力,4月刚刚登顶Big Code模型排行榜。
自2023年10月发布至今,通义灵码的插件下载量已超350万,每日推荐代码超3000万次,被开发者采纳的代码超亿行,据称是国内最受欢迎的智能编程助手。
▲CodeQwen1.5登顶Big Code模型排行榜
同时,周靖人宣布通义灵码企业版正式发布,包含标准版、专属版两个版本,满足企业用户在私域知识检索、企业数据合规、统一管理等方面的定制化需求。
标准版“开箱即用”,可以接入企业私域知识,实现私域知识问答,让AI推荐的代码更贴合企业规范;专属版在标准服务之外,提供公共云上专属实例部署、企业私有模型训练、独立企业账号系统等服务,满足大中型企业客户定制模型、节约算力的需求。
▲通义千问2.5的智能编码能力
周靖人称,阿里云是国内首家推行全员AI编码的云厂商,内部已全面切换通义灵码企业专属版,目前26%的新增业务代码由通义灵码编写,研发效率提升10%。
此外,中华财险成为首批通义灵码企业版客户,其60%技术人员已开始使用通义灵码,1/4的编码任务由通义灵码完成,基于通义灵码的研发问答准确率达90%。此外,通义灵码编码助手还“入职”了多家金融、汽车、新零售、互联网等企业。
三、通义千问APP免费开放全栈能力,更名“通义APP”
基于以上能力,通义千问APP全面升级,在移动端、Web端、小程序端集成通义大模型全栈能力,免费为所有用户提供服务,同时更名为“通义APP”。
▲通义APP全面升级
通义APP以性能媲美GPT-4 Turbo的基模为底座,将通义实验室文生图、智能编码、文档解析、音视频理解、视觉生成等能力“All in one”,目标是成为每个人的全能AI助手。
▲通义开放体验全栈能力
今年以来,通义APP先后推出了“全民舞王”、“全民唱演”、“通义照相馆”、AI智能体等应用。在“全民舞王”频道,用户上传一张照片就能让图中人物跳“科目三”等舞蹈;在“全民唱演”频道,用户用一段音频就能驱动肖像照中的人物唱歌说话。
这些热门应用背后都是通义实验室自研的前沿AI模型。周靖人称,未来通义APP还将推出更多以新技术驱动的新玩法,让所有人都能获得最领先的大模型技术体验。
四、百炼大模型平台升级2.0,5到10行代码即可搭建企业级RAG应用
在大模型落地层面,周靖人谈道,只靠基础模型不能解决所有问题,“当下企业应用大模型存在三种范式:一是对大模型开箱即用,二是对大模型进行微调和持续训练,三是基于模型开发应用,其中最典型的需求是RAG,以企业数据对大模型进行知识增强。围绕这些需求,百炼打造了模型中心和应用中心,提供最丰富的模型和最易用的工具箱。”
阿里云于去年10月推出了百炼大模型平台,开发者可通过“拖拉拽”等交互形式,5分钟开发一款大模型应用,几小时“炼”出一个专属模型,把精力专注于应用创新。
今天,周靖人宣布百炼平台从模型开发、应用开发到算力底座全面升级至2.0,更加易用、更加开放,引入更多模型,还率先兼容LlamaIndex等开源框架,企业可自由替换能力组件来适配自身系统。
▲百炼平台升级2.0
针对当下企业最关注的RAG链路,百炼提供灵活开放的企业级检索增强服务,只需5到10行代码即可搭建RAG应用,实现低时延、高并发的检索引擎。
▲百炼提供RAG应用服务
百炼集成了上百款大模型API,除了通义、Llama、ChatGLM等,还首家托管百川等系列三方模型,覆盖国内外主流厂商。同时,百炼依托阿里云AI基础设施,支持千亿级模型的万级并发推理,充分满足企业需求。
百炼内置丰富的Prompt模板,支持基于LLM Meta-prompting的智能优化,用户可用几句话简单陈述需求,无需费心调试Prompt工程。
▲百炼提供Prompt模板
对需进一步训练模型的用户,百炼提供从数据管理、模型调优、评测到部署的全链路模型服务,用户可弹性按需调用算力,无需关心底层架构。训练过程可视化,还可自动评测模型质量,并与其他模型对比。
百炼支持Assistant API开发模式,用户可在百炼上创建知识库,并一键开启RAG,通过Assistant API联合输出。同时,百炼支持Agent开发,能实现多智能体协作、对话记忆等功能。
▲百炼提供Assistant API开发模式
周靖人称,接下来百炼将继续做对开发者最友好、最开放的大模型平台。阿里云欢迎更多大模型上架,百炼将进一步支持三方模型的微调训练和云上专属部署,帮助大模型生态中的企业提供商业化服务。
结语:开源生态加速大模型应用落地
去年8月,通义宣布加入开源行列,沿着“全模态、全尺寸”开源路线陆续推出十多款模型,其中语言模型参数规模横跨5亿到1100亿,多模态模型涵盖视觉理解、音频理解、代码等方面。
大模型的训练和迭代成本极高,绝大部分的AI开发者和中小企业都难以负担。Meta、阿里云等头部厂商致力于开源生态,让开发者不必从头训练模型,把模型选型的主动权交给了开发者,加速了大模型的应用落地进程。