出品|搜狐科技
作者|汉雨棣
10月31日云栖大会上,作为通义大模型基础模型的通义千问2.0千亿参数模型正式发布。与此同时,用户开始可以下载通义千问App进行体验。据了解,在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。阿里云CTO周靖人宣布,将在11月开源通义千问720亿参数模型,继续支持全球开发者开展模型和应用创新。
与此同时,基于通义大模型训练的8大行业模型也已上线,分别为:通义灵码-智能编码助手、通义智文-AI阅读助手、通义听悟-工作学习AI助手、通义星尘-个性化角色创作平台、通义点金-智能投研助手、通义晓蜜-智能客服、通义仁心-个人专属健康助手、通义法睿-AI法律顾问。用户可以在官网直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。
今年9月,阿里集团CEO吴泳铭在全员信中表示,要让阿里各个场景都变成AI技术的应用场。如今,淘宝天猫、钉钉、天猫精灵、斑马智行等均接入通义千问大模型,先后发布了适合各自业务场景的AI应用。
会后,阿里云集团首席技术官周靖人、阿里云副总裁张启与搜狐科技等媒体就新发布产品、算力困境等多个话题进行了对话。周靖人强调,通义千问2.0及其一系列模型的推出并不是为了做to C的产品,而是为了将模型面向社会各界进行开源,与阿里系的其他产品之间没有竞争关系。同时,周靖人对同时在国内大模型发展现状、算力短缺等问题进行了回应。周靖人表示,本次技术浪潮才刚刚开始。其变革转型必将改变整个算力市场。
图为阿里云CTO周靖人,图源阿里云集团
以下为对话实录,经编辑:
媒体:今天的云栖大会阿里云推出了很多模型产品。现在也有很多AI应用厂商,阿里怎么考虑跟它们的关系?如果我们自己做这个产品,是to B、to C都做吗?
周靖人:我们并不是做一个to C的产品,我们更多希望把模型的能力开放出来,能够让更多开发者、更多合作伙伴去使用。如果开发者有能力去做自己的模型,我们提供有效的工具帮助你完成模型的开发。如果没有做模型的能力我们就以API的形式把模型的接口共享出来。
媒体:今天下午发布的通义千问2.0在阿里云大模型研究历程当中处于什么位置呢?如果对标Chat GPT,通义千问2.0现在属于什么水平呢?
周靖人:我们在大模型这方面的研究,从2018年底、2019年初就开始了,那个时候我们还是叫预训练模型,今天我们通义千问的模型就是在我们之前整个预训练模型的技术体系里面发展起来的。
我们从4月份开始对外发布以后,也进行了一系列升级,通义千问2.0也是个千亿级规模的大模型。至于今天模型能力部分,一方面在ChatGPT3.5里我们有非常大的胜率,ChatGPT4.0里面大家各有胜负。另外一方面也是大家使用的体感,本身这个模型也在不断地演进过程当中,其实每个人的体感是不一样的。这个是我们接下来面对的一个技术问题,怎么能够找到大家个性化的需求,能够更加地帮助大家个性化地去定制相关的模型。
我们认为目前还在技术发展过程中,有任何一个定论都是为时尚早。今天整个中国模型界的差距在越来越缩小,包括通义千问在内,大家应该能够体验到2.0非常大的一个能力的提升。接下来我们还会有更好的模型推出。
媒体:我们也看到阿里云的大模型生态开放包括了四个方向的产品跟业务,第一个是算力层面的PAI灵骏;第二个是MaaS层面的PAI灵积;第三个是开源和社区,分别是三款开源的通义千问大模型和魔搭社区;第四个是百炼,大模型应用开发平台。这四个方向的产品和业务,分别解决的是哪方面的客户需求跟他们的一些想要的东西?这四个方向的产品和业务如何结合在一起共同推进我们AI大模型的生态繁荣?
周靖人:世界一流的AI基础设施包括的训练和推理的设施,这一层我们是把所有的,包括在分布式、存储网络、服务里弹性的能力全都开放给大家了。这一层的用户来自于模型的创业公司,或者是很多致力于模型研究的机构和个人。
今天在社区有这样一群开发者,他可能不会再去涉及到基础模型的研发,但是并不代表他不在基础模型上面进行二次创新。这一群的开发者是今天魔搭社区的一个重要的用户。在魔搭社区里面,我们阿里云的通义千问模型就开源出来、贡献出来。
以上每一个环节、每一个人群都是今天整个开发者生态重要的组成部分。阿里云的产品技术体系大家乍一听好像你几个维度都做,但是几个维度我们目标的开发者、目标的人群都是不一样的。
媒体:今天下午发了很多通义大模型下的行业应用模型,它和阿里其他团队关系怎么样,比如通义万相的写真馆,和前段时间比较火的AI相机比较像,会不会有竞争关系?“1+6+N”之后,阿里云跟其他兄弟公司的合作关系会不会有些变化?
张启:据我所知,目前国内第一个大规模落地的AI应用应该是在通义千问发了之后,钉钉进行全面的改造。前几个月淘宝也在测试淘宝问问,夸克也做了非常多大模型方面的尝试和进展,阿里国际站也在大模型方面进行了很多探索,各个业务都在自己的方向摸索,现在还是一个非常早期的阶段。
周靖人:整个阿里大集团在模型上的创新和探索非常多,当然不同的创新、不同的应用正处于不同的阶段。有些可以对外发布,像刚才讲到的钉钉。有的还在各种各样探索,包括适配中。
我们之所以做(通义万相)这个模型,初衷不是做一个to C的产品,是希望把能力能够释放出来。我们希望有更多妙鸭相机的公司在阿里云上面能够发展起来,能够获得成功,妙鸭相机本身模型服务也是基于阿里云PAI灵积的平台。
我们今天是一个模型的展示,但并不是一个完整的应用。为了要把模型的能力应用在整个业务系统里,还需要进行开发。我们希望有这样的能力,其他的开发者也许不具备模型能力的创新,或者不愿意在这方面花时间的话,他可以用这样的模型集成在自己的业务体系里。这个不存在任何冲突,也不存在任何竞争的关系。
媒体:在我们中国市场,AI大模型对云计算厂商助推作用在什么时候体现?是在四季度或者明年的一季度体现吗?过去的两三个季度不是很明显。
周靖人:人工智能这次的浪潮刚刚开始,大家不用太过于心急,每个国家有各自自己的节奏,我们非常笃定这一次的变革以及转型是深远的,而且一定会改变今天整个算力的市场,甚至于今天云计算的方方面面。
媒体:大模型对开发方式改变是怎样的?
周靖人:虽然我们很关注模型,但模型是业务系统开发的一环,还有很多数据,特别数据库、存储,一系列的能力也是做科技创新所必需的。
我们看到了几方面:
一方面是server less,几乎今天所有的产品体系都有serverless的产品提供,更重要是帮助大家降低使用云的门槛,这是第一。
二是容器,这次我们推出了ECS阿里云容器服务,更进一步去应对更加趋于容器的开发范式,帮助大家在各个产品之间资源的互通、资源互相的调动。
三是流程式的开发。因为今天所有的系统开发已经不再是使用一个单一的产品,前端是数据处理,后端是模型的应用,很多复杂的产品体系要融合一起使用。模型是加工过后的数据集合,这是一个高度知识的抽象。我们之前讲到Model as a service,它既代表了基础设施架构上的升级,也代表了围绕着模型一系列的范式转移。今天开发的模式更多是以模型为中心,所有人围绕着模型重新设计自己的开发系统,甚至今天设计自己的业务系统。以前我们有Infrastructure,这是一个生产元素,今天Model模型也是业务系统开发以及云计算一个重要的生产元素。
媒体:现在算力有一定受到政治因素的干扰。我们前段时间也有了解到有些云厂商在美国政策出来之后优先供应自身内部的需求,而不是对外提供。现在阿里云作为国内最大的一家,而且有这么多模型在我们训练上,短期内算力问题无法得到的情况下,接下来会不会在倾向上倾向于自身的模型?我们会不会提供更多算力上更多考虑未来国产训练的芯片?
张启:我相信所有中国厂商短期内都会碰到这个问题,我们也会做各类准备。2009年阿里云成立的第一天,王坚提出三句话,互联网是基础设施、数据中心是一台计算机、计算会成为公共服务。云计算第一天成立的时间就是把更便宜的、性能更低的、各个层面更便宜普惠的PC机成百上千,甚至几十万上百万的连接起来,让它提供更强的算力,能够去做更大的计算任务突破。当年的飞天5K,2003年的突破就是第一次把5000台服务器连在一起,去突破大型计算量的任务。
今天面临同样的情况,在未来的一段时间里,大家可能都面临没有很强的单芯片性能的情况。这个才是云计算真正要发挥价值的地方,它就是要把成千上万,十万上百万异构的芯片连接起来。单一芯片性能可能不行,但整体上能通过并行计算实现任务。
周靖人:我们也是在底层技术方面通过异构和并行化的能力,在不断地进行创新和突破。我们的目标是为每一位中国的AI公司提供足够的算力,这个方向没有变化。今天有一个短暂的挑战,这也是我们当前阿里云技术能力展现的时刻吧。