这一年,大模型和AI相关的技术层出不穷,技术竞赛、算力紧缺、商业狂奔、信息爆炸,所有人都仿佛卷入了Scaling Law的螺旋中,有迎接AI新世界的兴奋,也有目不暇接的焦虑。
魔搭社区今天特别推出「螺旋上升-大模型人物专访」系列栏目,希望通过最前线、最深度的访谈,给大家带来真正来自insider的干货和心得。
栏目第一期,主持人小橙鱼邀请了通义千问开源技术负责人林俊旸来做客,分享通义千问在发布这一年的重要经历,以及他对模型开源生态建设的深度思考。
· 本期人物 ·
· 林俊旸:通义千问开源技术负责人
主要话题
小橙鱼:前几天是一个特别的日子,距离通义千问发布刚好整一年。这一年通义千问到底经历了什么?
俊旸:一年以来,发生了不少的事情。前年12月,其实跟大家一样,看到ChatGPT觉得非常的神奇,效果超出我们之前对Large Language Model的认知。
尽管我们知道OpenAI手头确实有非常强的模型。我们用过text-davinci-002,text-davinci-003,但是ChatGPT来之后,还是受到很大的震撼。一月份的时候,我们开始尝试研发我们自己的ChatGPT模型,后来整个市场变得非常的火热。
去年4月11号,通义千问正式发布。可能大家并没有很深刻的印象,但对我们来说,其实是非常有感触的一个日子。我们觉得那个模型属于在当时还OK的状态,当然跟ChatGPT3.5还有比较大的差距。
我们很长一段时间的目标,是能够起步去做一个还OK的模型。怎么样去达到3.5的水平,怎么样在预训练以及alignment每个部分都做得非常的扎实。
今天回头看,做一个中等的模型,其实相对来说不是一个很难的事情,但如果真的想把效果给做上来,在于你有没有下苦功。比如说在预训练层面,有没有在数据层面下苦功。一方面是数据量是否够大,第二方面,数据清洗有没有思考和逻辑,构造出来一份比较优质的数据。
这个事情非常考验人。尤其是预训练,它考验的是人的耐心。团队的大量资源,会投入一到两个模型当中去。但这一两个实验失败的几率其实是非常高的。其实最大的挑战和压力是在心理层面。
技术层面真的特别难吗?今天看可能也没有那么的难。很多开源社区在讨论的方法,其实都是行之有效的。真正难的是你能不能沉下心来,大家真的坐在一起干一个事情,然后把这一件事情给干成。
八月份我们第一次开源了通义千问的Qwen-7B模型,之后每个月Qwen系列都会有一些进展。到72B发出来之后,大家会感觉到说,通义千问比原来高出了一整个台阶。然后到开源模型1.5这个阶段,我个人感觉我们在开源模型里边,算是第一梯队。在LMsys的chatbot-arena上,我们现在是排到第十。最新的cohere的command r plus模型,刚刚超越我们成为开源的第一名,达到了第六。
当然不是说chatbot arena就完整地反映了大模型的所谓水位。但确实现在通义千问1.5有很多人在用。大家觉得还不错,也会觉得还有一些提高空间。在所有开源模型当中,大家可以看到这个模型还比较不错,也会觉得还有一些提高空间。同时,我们闭源的模型比我们开源的版本更强一些,因为size更大,达到了千亿参数的级别。
小橙鱼:这一年,你个人最大的感受是什么?
俊旸:如果真的想把一件事情做好,自己和团队必须要有耐心和集中精力干一件事情的决心。这件事情如果能做到,成功的概率就会很高。
团队想法一致很重要。大家今天都在谈论OpenAI。它可能像一个特殊的组织,大家就奔着AGI的目的去。如果你不信奉AGI,你可能就不会加入。对于任何一个大模型团队来说,都要有这样的一个信念。这样才能集中有限的资源去做更有意义的事情,而不是做很多很小很细碎的实验。
小橙鱼:如果回到一年前,你们会做什么不一样的选择吗?
俊旸:从训练大模型的角度,可能还会继续沿着Qwen的这个系列来做。但可能会在open source这件事情上的话,来的更早一些。我们确实感受到open source community的强大力量,在为社区贡献的同时,社区也给了我们大量的反馈。
八月份的时候,我们开源了Qwen-7B的模型。当时觉得这个模型在7B的level里还可以,在国内比较顶尖,在国际上也还可以。但当我们开源之后,其实受到了很大的冲击。大家发现说这个模型会有各式各样的瑕疵,不管是模型质量方面,还是在模型的服务层面。
有很多用户非常积极地向我们反馈,说你的代码层面可能会有哪些问题,这个模型可能有哪些用起来不太好,在某些环境里边它就是跑不起来,还有给我们的模型去做一些评估。这些让我们对下一版本进行了大量的优化。
最简单的优化是在post training这一块,也就是alignment,包括SFT和RLHF。当然RLHF也包含了DPO相关的一些技术。用户的反馈对我们帮助非常大。知道问题在哪里,优化就会做得非常好。
所以,如果能再有一次机会,我们可能会在开源方面做得更激进一些。
小橙鱼:魔搭社区经历了千问开源历程。我个人感受,当我们看榜单,感受是苍白的。我感觉千问真的很不错的时候,是我们把魔搭做的一个Agent的一个框架,从GPT-4切到千问,效果也很不错。这种时候,模型的水位会在使用者身上,结合使用场景,留下一个磨灭不掉的一个印象。
千问刚做开源的时候,我们收到国外的华人用户反馈,说其他人都用llama,只有他用千问。但是在过去的一段时间里,我们看到像HuggingFace榜单上面,Top 3的模型都是基于千问72B做的微调模型,我觉得千问模型进入到了下一个状态,开始进入到了国际竞争者的这样的一个视野里了。
千问跟这些模型一起走的时候,你觉得首先你觉得你最崇敬的一个对手是哪个?以及你希望以什么样的速度去跟他们保持在同一梯队?
俊旸:一般来说,榜单会是我们迈出的第一步,首先得参与到评价体系,然后达到一个比较好的水平,大家才会去用你的模型,看它的优点和问题。
开源之后,评估模型的水平需要更久。第一周,会有很多的噪音。一方面你的朋友可能会吹嘘你的模型,但他可能并没有实际去用。一般一个月后,有很多用户的反馈,这时大概就知道模型是到什么位置。
接下来就是我们在国际上怎么和顶尖的玩家去比较。我最崇敬的毫无疑问是Mistral。Mistral的模型非常出色。在7B这个水位,它的模型质量非常的高,Mixtral作为MoE模型也是引领潮流。
而且,Mistral是以玩家的心态去看待一些事情。他们做出很好的模型,然后以有趣的方式跟大家交互,非常的酷,它在线下还做了非常多的活动,跟开发者深入交流。
大家可能会好奇Qwen也努力往国际化方向走,其实在72B推出之后,我刚好走访了香港以及新加坡两个地方。结果让我非常触动,很多人甚至都没有听过千问,这其实是一个比较残酷的事情。
我当时在想的一个问题就是有没有一种可能其实我们的模型没有那么好呢?后续我们做了不少调研,发现有很多生态是我们过去都没怎么关注的。比如说llama.CPP、ollama、Transformers等,像ollama社区维护得也挺好,logo非常可爱,然后让人就非常想去用它,界面也非常简洁,而且只需要用一行代码,就可以run大模型,易用性是能够帮助项目推进的重要因素。
可以看到在国际上的竞品跑的更快一些,因为一方面是开源社区非常热,大家对开源非常有激情。会有很多人参与进来,形成社区的无形的标准。
我们还是必须承认,large language model开源的这个生态,目前大家可能真的觉得是llama主导的。因为今天大家在看很多知名的项目,都离不开llama这个名词。包括ollama,包括现在做RAG最火的框架llama index,微调框架llamafactory等。不难看出社区因为llama的开源,然后逐步的形成了自己的一个玩法和生态。
那作为一个新进的模型提供方,以什么样的形式参与到社区生态里边来,怎么样去帮助更多的人,这是一个选择。
Qwen拥抱国际化的过程非常有趣,让我接触到很多人,慢慢地用户就开始变多。之前大家可能都不知道Qwen是什么,就是觉得这个名字也很奇怪。但Qwen1.5之后,HuggingFace用Qwen1.5来开发模型的非常多。比如越南的一位朋友,他跟我说Qwen的越南语水平非常的高,尤其是72B。但是他们考虑成本,用14B continue train和finetune做出很好的模型,用到他们的业务中。 还有sail lab的朋友,他们做了基于Qwen1.5的东南亚语的模型sailor。
慢慢的有些人开始从llama、Mistral,到把Qwen1.5系列的模型也考虑进来。
小橙鱼:我们相信,未来Qwen会成为大家选择模型时那个short list里常驻的一员。我本人感受很明显,在用Qwen 1去搭RAG框架时,我用LangChain去封装了Qwen的模型,再用llama index去build了一个index做检索。等到Qwen1.5出来时,我发现因为融入了transformers的生态,我只需要通过llama index的一行代码,就可以直接load Qwen1.5。我本人感觉Qwen通过躬身入局的方式,对接了非常多的生态,这对于开发者很便利。
小橙鱼:其实我们也知道,俊旸和他的小伙伴们在做另一个叫OpenDevin的项目的开源。六个月前大家都说,github copilot才是code模型的正确的产品形态。而现在大家都在为Devin这样的产品感到很兴奋。OpenDevin这个项目有没有一些有趣的事情?尤其是来自全球的researcher和engineers怎么一起co-work。
俊旸:OpenDevin这个项目其实比较巧合。我记得那一天半夜,看到了Devin推出的视频。Devin在SWE-bench上面拿到的分数非常惊人。这个benchmark贴近真实场景,非常有挑战性,我觉得还蛮有趣的。
这时候同事给了我一个idea,要不我们做一个项目就叫OpenDevin。我们当时的想法是,有没有可能把全世界做code相关的一些researcher聚在一起,包括做finetuning的,做code模型的。其实大家在做的很多research,非常有价值。但大部分research没有持续做下去,是因为没有形成合力。
没想到发出去号召之后,来的人比我们想象的要多很多。全球的开源社区对agent热情非常高。做agent能让很多人聚在一起,今天大家都在谈的multi-agent,其实本质上是让大模型能互相协作,让各个领域的人都参与进来了。
前期做research的,可能会去研究怎样去设计agent framework,后期还有怎么去维护后端,前端怎么样的设计,让别人能玩起来,其实非常的有趣。做foundation model的也能进来,考虑在code specific方面怎样训练一个更好的基础model。其实Devin整个项目的设计非常用心。虽然看起来还蛮简单,但是它有不同的板块,能让Agent干不同的事情,写代码,甚至上网搜索资料。
刚开始就有有非常多的人填交问卷,希望加入到slack里跟我们协作。然后提交PR代码的人也非常多。我们非常有幸遇到几个核心的开发者,他们快速把这个项目的原型做出来了。我特别记得我们的头号开发者,等于是最主要的maintainer, Robert Brennan。他当时应该是晚上六点开始提PR,然后不断的提交,提交到第二天凌晨四点,我们当时看到他真的提交了很多代码。
他的架构思维也非常好,热情也非常的高,早上醒来就会去github去看有什么样的问题。然后考虑今天想做什么样的一些事情,哪些事情希望别人来帮忙去做。我们就会在have wanted的channel里提出相应的issue,然后就会有人去接活,来干相应的事情,给我们提交提案,如果OK的话就通过。后来我们就发现整个事情非常自然地run起来了,甚至不需要我们这个项目的初创者太操心。
那今天这个项目究竟属于谁呢?我觉得它是属于整个开源社区,并不是属于我或者是属于某一个核心的开发人。
小橙鱼:OpenDevin项目的长远目标是什么?
俊旸:第一步其实是有一个原型,包括一个稳定的后端,然后有一个可靠的前端,把基本的功能都完成。还有肯定还是尽可能用最强大的large language model。
接入一个agent框架之后,其实本地模型也能放到里面去。于是就会有人把很多别的东西接进来,比如说Ollama以及是LM studio给接进来。那这样的话可以把开源模型给用进来。同时可以接入更多公司的API,让模型的选择非常广泛。我们在Agent方面,其实是把一些核心的模块化进行抽象。抽象完之后的话,大家可以根据我们抽象完的模块,去搭建自己的agent的这算法。我们有一个agent hub的文件夹,其实就可以在这个文件夹里边选。
比如说我现在有一个不错的算法,那我就可以去写一个我自己的这个agent的框架,然后放到这里边来,大家可以去选哪一个agent。比如说我们现在有monologue agent,然后还有一个非常优秀的开发者,Xingyao提出来的code act的agent。我们接下来会有更多这样的agent。这个事情如果能起步,接下来将会有非常多优秀的researcher往这个项目里边去贡献。总有一天,我们能够做出来非常好的agent的framework。接下来我们会用开源模型将代码水平做到尽可能地高,去摆脱像GPT-4以及Claude-3这样非常昂贵的闭源模型的API的束缚,追上甚至超越GPT-4。
其实,OpenDevin应该是more than Devin。因为Devin对大家来说更多是一个demo,能够真正用上Devin的人其实也比较少。Devin是代表着一种产品的形态,去帮助人做coding相关的事情。但对于我们来说的话,我们觉得OpenDevin这个项目应该有一个更长远的一个目标,就是让大家能够拥有自己的coding assistant,或者是说更大范围一点,自己的AI assistant。
今天OpenDevin在github的star数量已经超过2万了。如果大家感兴趣的话,欢迎加入。如果你想协作或者贡献代码,可以直接加入我们的slack channel。如果想参与讨论,或者是使用者,可以加入我们的discord server。因为我们的项目迭代非常快,所以会出现一些bug,也需要大家的帮助。
小橙鱼:OpenDevin这个项目听得让人热血沸腾。一群人因为对AI instant和开源的信仰聚在了一起。然后快速地小步迭代,不断的试错,达到了今天这样一个非常优秀的成就。
小橙鱼:那我们也聊聊另外一个话题,就是AI应用的商业落地。有一个团队,同样孵化于社区,就是stability AI。但它今天遇到了一些危机。他们在当初其实有非常优秀的工程师,也有非常足够的信仰,而且还有很不错的基础模型,甚至说非常多的GPU卡。怎样去避免遇到这样的危机?你觉得在AI的商业化落地上,初创团队怎样走得更远?
俊旸:这个问题很有难度,其实大家都没有非常明确的答案,或者说很难有人能说自己的答案是正确的。很多人的看法截然不同。有人信仰AGI,有人觉得当前大模型要赶紧找到落地场景,以及说我们不需要那么大的模型,我们要去用比较小的模型。
你提到的stabilityAI,是我非常尊敬的公司,因为他们的技术确实做的非常好。如果没有stable diffusion,今天的图像生成技术和社区不会发展得如此火热。
我猜测,可能很多时候事情并不是我们想象的那样,比如说商业上没办法进行下去。有时候可能就是团队里大家想法不一致,导致事情推动起来有困难。我不好说他们是否有足够的GPU卡,这件事情我也不太确定。
因为之前我跟Emad聊的时候,他提到他们在做stable-diffusion 3,也提到了GPU是紧缺资源。我觉得今天对不管哪个公司,GPU资源肯定都是紧缺的。因为当你手头有一定的GPU时,你想干的这个事情很可能就会超出你当前所能承受的限度。在有限的资源下,你要做的是通过大量的验证来保证成功,还是说相信自己的直觉,然后yolo一把,去尝试更大的突破?这其实非常难说。
提到商业化落地,其实还是比较复杂的。今天大家怎么去用大模型,并不是我们这一些model provider能够清晰把握的。甚至我们并不是真的那么懂我们的模型在业务场景的使用,开源生态其实帮了我们不少的忙。因为我们开源之后,经常会遇到一些非常惊喜的事情,当然也会有一些惊吓了。
小橙鱼:有哪些意外收获?
俊旸: 用户可能提出一些showcase,我们从来都没有想到。你也没有想到这个大模型在他的场景里,表现其实非常的稳定。之前我们有一些开源的用户,把我们的VL模型,结合自己的system,然后用到比如汽车设计的场景中,还有用来操纵机器人。我们自己想这件事情很难,但用户会做得非常有趣。
那其实model provider需要整个生态来提供更多的信息和帮助。所以开源这件事,反而推动了大模型的商业化落地。因为我们把模型开源了出去,我们的开发者其实本质上也是我们潜在客户公司的核心工程师。
这个事情频繁地在发生,我们看到很多人在用Qwen模型,不管是在大厂、中厂、小厂。我们通过开源的方式变成别人的一个重要选项。如果他用得好的话,其实他会在他的场景里面,给你带来更多的信息。
与此同时,我们开源的时候,其实会把整个事情尽可能地更规范化。我们自己迭代的速度非常快,在没有开源的压力,去维护产品体系的完整文档,或是使用方案,其实很不容易。而商业化往往也需要非常标准化的东西。
小橙鱼:你刚提到,很多人对商业化落地的观点截然不同,你个人是怎么看的?
俊旸: 大模型公司最后怎样在商业上产生非常大的价值,有赖于双方的努力。一方面是模型的提供方,你要把自己的模型水位给打上去,举个例子,在去年年初的时候,不管是哪个厂商推出的模型,在当时距离GPT3.5都还有巨大差距的情况下,其实离落地非常的远。
今天可能大家提升到与GPT4有一定差距,但是并没有想象得那么大。很多人有可能把你的模型用好。同时,用户和开发者对于大模型的理解更加深刻之后,会有想象力做出有趣的事情。
所以从我的角度来讲,没有一个绝对答案。对于模型提供方,肯定要进一步提升模型水位。比如说今年年中,我希望我们的open-source的模型,真正意义达到了GPT-4的水平,然后手头可能还有更好的一些闭源模型。那个时候可能GPT-5已经出来了,但是到了GPT-4水平的话,会是商业落地上比较好用的一个模型。
再进一步,这些模型怎么降低成本,有没有可能把模型变得更小一些,双方怎么合作,都有非常多想象空间。但其实目前还没法给出相应的答案。如果今天非常明确地说,我就要做小模型,就要专注在一个非常垂直的方向,那有可能是背离通用大模型的逻辑。当然,通用大模型也要学习特定场景的数据来提升表现。
小橙鱼:说起Qwen各种各样的应用,大家都希望从真正的AI从业者身上了解,未来会有一些怎样的AI应用。我们也看到Qwen在opendevin agent这个方向上的尝试。未来还会有具身智能、桌面代理、多模态,甚至是large language model as OS这样的生态、可穿戴设备。如果今天你不仅很懂技术,还有大笔的钱可以投资,你更加believe哪个方向?
俊旸:首先投资人是一个非常专业的职业,我其实也做不好。但是可能对AGI我们会有一些相应的想法。我们的team本身比较信仰通过多模态的system去达到未来的AGI。
今天可以看到这个趋势非常的明显,就是要把不同的模态融入到一个模型里面去。GPT-5非常可能会把它们融合在一起。今天GPT-4的turbo刚更新,其实就把它的vision和language部分就放到至少是一个API里。Gemini 本身也是一个多模态的模型。我们其实会去想个问题,怎样把视觉和语音都融入到一个模型里面。
Qwen-VL是我们比较引以为傲的模型。如果我们去跟OpenAI比,在language model方面我们承认还是有差距。闲聊不太能看出来,尤其是中文,甚至有时候可能会觉得我们更好一些。但在一些特殊的应用场景中,大家会感受到差距。
但在VL领域,我们Qwen-VL-Max的performance其实非常接近GPT-4V。而且它的中文理解能力明显比GPT-4V好不少。图像细节信息,图像文字设计、OCR相关,它其实都能做的非常好。但我们其实是一个模型,end to end把这件事情给完成了。
很多事情原来真的可能,通过一个不叫large language model,叫large multi-modalmodel,来真的实现的。你可能不需要那么多复杂的模块,而是需要一个很好的大脑,能接受多模态信息,未来还能生成多模态信息。你只需要去做一些相应的接口,就能搭出来一个非常强大的AGI系统。
小橙鱼:多模态可能产生哪些具体的应用?
俊旸:如果说和更实际的场景结合,多模态结合agent、结合具身智能以及结合像桌面代理,都是完全有可能的事情。
当前的agent有一个非常大的limitation。就是如果是基于language model的话,它没有办法把握视觉的信息,让它实现一个我们想象中的agent。
举一个简单的例子。你想让大模型或者AI assistant,学会根据指令去操纵手机屏幕。如果根据language model的逻辑,你可能需要读取它的代码。但其实大模型根据这些代码做出正确决策非常难。
有一个客户跟我提到,如果让普通用户去看手机代码层面的东西,大部分人肯定是完全看不懂。但是不管产品经理和工程师写了多少代码,让界面变得多么复杂,不管图标怎么变形,颜色怎么变,用户总能轻松地做出正确的决策。
有没有可能large model,或者说large multi-modal model能够像人一样去看待这些事物,去做出一些决策。比如对大模型说,帮我订一张最便宜的机票,然后它能查看整个界面,判断哪个价格更低,并且直接购买。看起来,它就更像人做这个事情的方式了。
这个agent背后的模型化,至少要具备视觉能力。今天也有一个传言,就是devin背后的模型,并不是GPT-4,而是最新推出的带有vision能力的 GPT-4的模型。我觉得这件事情其实也非常合理。做agent的人,其实都会去想怎么结合多模态。
跟可穿戴设备结合,想象空间会更多。今天可以看到的很多设备,都跟large multi-modal model关系很大。再举一个小例子,像open-interpreter推出了01。当然它还是一个比较初级的形态,但你可以看到agent和设备的结合空间非常大。
小橙鱼:你看到的多模态技术趋势是怎样的?
俊旸:我们相信很多东西会聚合在一起,走向统一。就比如说VL的模型,如果背后没有很强的large language model去做backup,它根本不会达到很高的图像理解能力。
VL的模型很复杂吗?其实也没有很复杂,它核心的逻辑就是让large model能看懂来自vision encode的特征,然后做出相应的决策,输出相应的文字,甚至输出相应的bounding box,因为bounding box也可以变成我们的词表。如果变成了语音,那其实就是理解audio encoder的表征。所以其实很多事情整个做下来,可能都是殊途同归。
魔搭社区的「螺旋上升-大模型人物专访」接下来还会有很多精彩对谈,给大家带来AI行业最一线的深入洞察和思考。
END
责编|崇修(转载及合作请评论区或邮箱留言)