作者|叶蓁
编辑|康晓
出品丨深网·腾讯新闻小满工作室
2023年下半年,在参加多场国内大模型行业研讨会后,智谱AI CEO张鹏强烈意识到:中国创业者不应该给自己贴一个只擅长“1到100”的标签,然后限制我们去想“0到1”的突破可能。
“能不能把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步?”
张鹏的问题,源自中国大模型产品和ChatGPT在认知上的差距。
“用个不太好的词,得其形未得其神。虽然双方某些层面也是一致的,比如不约而同的把多模态作为最新模型的关键特征,但多模态为什么重要,大家不是都能说得清楚,这就是差异。”
张鹏和智谱AI试图从本源上来理解OpenAI背后的逻辑,来对齐GPT-4的水平。
基于此,1月16日,在2024智谱AI技术开放日Zhipu DevDay上,张鹏发布了新一代基座大模型GLM-4。
据介绍,GLM-4在基础能力上实现大幅升级,性能相比上一代全面提升 60%,逼近 GPT-4。其支持更长上下文、更强的多模态,包括更高精度的文生图性能和更丰富语义的图片理解。
同时,GLM-4-All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力以完成复杂任务。GLMs个性化智能体定制能力上线,任何用户用简单的提示词指令就能创建属于自己的 GLM 智能体。
毋庸置疑,当下的智谱AI,正处于浪潮之巅。去年6月,在硅谷科技媒体The Information的盘点中,智谱AI被视为最有可能成为“中国OpenAI”的5家企业之一。
在2023年智谱AI的全员大会上,张鹏很感慨,“生在这个时代很幸运,一辈子几十年的时间,可能就赶上这么一波技术的潮流。”
2019年成立的智谱AI是国内最早研发大模型的企业之一,由清华大学知识工程实验室(KEG)技术成果转化而来。智谱AI的去年完成了累计25亿元的融资,投资方包括美团、蚂蚁、阿里、红杉和高瓴等。
在经历了追赶ChatGPT的一年后,张鹏认为,2024年中国大模型的主题词是顶天立地。“我们希望朝国际上最先进的水平去看齐,在技术上和应用上去尝试顶一下天;而立地这个事情就是把公司的商业化做好。”张鹏告诉《深网》。
以下是腾讯新闻《深网》专访智谱AI CEO张鹏实录整理,在不改变原意的情况下有所删减:
“与GPT 4水平对齐”
《深网》:最近大半年时间,GPT和国内大模型产品的发展速度是不是达到预期?
张鹏:GPT的发展速度还是挺快的,几个月时间做到2亿用户。不管是 GPT4, 11月份发GPT store,还有最近疯传的 GPT5,不管真的假的, 可以看到 OpenAI也在快速的往前更新和迭代,确实没有让大家失望。
国内的发展速度也挺快的。站在国外的角度看国内的大模型,能明显的感觉到国外对于国内产品的发展速度挺认可。
对比国外一些比较知名的权威人士和团队写的文章,从整个时间演化顺序来看,出现在文章里的中国厂商产品是在增加的,国外的同行很关注我们在做的这些事情。
《深网》:智谱AI最新的技术突破是什么?
张鹏:我们带来了新一代的模型GLM-4,大脑本身的聪明程度提升了,原来是一个高中生,现在可能到了大学生水平,大脑的水平提升的同时,我们也让它长出了手脚、眼睛、耳朵,具备了跟现实世界和数字世界进行交互的一些基本能力。
《深网》:目前智谱AI的水平,可以对标GPT的哪个阶段?
张鹏:我们一以贯之的是瞄向AGI路径中的一个阶段,每3-6个月更新一次做一次升级,每一代都会有一些不同,比如说上一代我们解决的是模型能力矩阵的对标,然后这一次是模型的能力上跟GPT4做到基本对齐,GLM-4 的基本能力已经比肩 GPT-4。
《深网》:对标GPT 4,最重要的是提升你们的多模态理解能力?
张鹏:多模态能力是其中非常重要的一个组成部分。我们聊多模态的时候,首先映入脑海的文生图、图生文,这个事情原生的驱动力是要解决跨模态的理解和生成,其本质是什么?在AGI的版图里,它代表的是什么意义?
当时我看到GPT4的报告触动很大,大家都在做文到图生成的时候,GPT4做了一个图到文的理解、推理和生成,它为什么要做这件事情?
我个人理解,人的视觉、听觉、触觉等,都是原始的基础数据和信息的感知能力,但语言是人造的,用抽象符号来描述这些原始信号的东西。本质上,语言是一种更高阶的信号。
人之所以为人,是因为语言,这件事情诞生是一个非常重要的节点。两个节点,一个是工具创造和使用工具,一个是语言,这是人工智能发展两个大的标志。
从抽象数据生成具象化内容(文生图),比从具象信息到抽象信息的转换(图到文),要更容易一些。为什么?因为具象的信号收集更容易,它包含的信息量的密度小;但从低维信号里面去抽取高维信号是难的,要排除掉噪音,得到价值最大的部分。
本质上,由低级信号到高级信号,更能体现认知的能力。
GPT4实现了图像的理解和推理,我们认为这是非常重要的一个方向。整个2023年,我们在多模态方面花了很大的精力去做图生文这件事情。而Gemini的发布也验证了这个事情,谷歌也认为这件事情很重要,谷歌甚至走的更远,它把图像、视频、声音、全部统一到一个模型里去学习。
《深网》:代码增强能力也是目前大模型之间的竞争点?
张鹏:代码增强是一个比较实际的问题,训练语言模型的认知能力,类似于再造一个大脑,需要更强的思考能力、理解能力、推理能力和认知能力。
大脑如果不和外界接触和交互的话,永远是个缸中大脑,能力再强也干涉不了现实世界。代码增强赋予了大模型交互能力,也包括搜索增强能力,让大模型长出手和脚,眼睛和耳朵,更自主的去获取信息,更方便的去跟外界的这些系统进行交互。代码增强让大模型产生更大的价值。
“2024关键词:顶天立地”
《深网》:2024年,你认为国内大模型的主题和趋势是什么?
张鹏:顶天立地。顶天也可以用创新来表示,顶天就是去突破,技术上创新,应用上创新,都是顶天的事儿,往上突破的事儿。
2023年国内企业在技术上都是一个追赶的态势,智谱AI稍微靠前一点,2024年我们希望朝国际上最先进的水平去看齐,在技术上也尝试去顶一下天,GLM-4 就是我们这方面的最新尝试;还有一个就是应用,两条思路——原来的钉子砸一遍和找到新的钉子。把原来钉子砸一遍,这个事情大家都能想到,就是用大模型改造现有的工作流程;找到新的钉子,意思就是尝试一些突破性的创新。
立地这个事,不管技术的突破也好,应用的创新也好,回归到公司本身还是要把商业上的业务做踏实了,转化成公司的收入和收益,创造客户价值。
《深网》:国内有投资人认为,OpenAI的技术本身没那么难?
张鹏:这种表述可能不严谨,更严谨的表述是从技术原理上来说,OpenAI确实没有太多神秘的地方,而且有很多原创的技术也不是OpenAI发明的,它把这些技术发扬光大或者做到极致。但从技术工程和落地上来看,这就是一件了不起的事情。
ChatGPT从技术原理、工程化、应用到市场,是一个非常紧密的闭环,很难单独割裂来看。
《深网》:从技术上看,国内的大模型能赶超 GPT吗?
张鹏:现在还是一个追赶的态势,我们也一直在缩小之间的差距,毕竟后发有后发的优势,也省去了前面的一些探索,把精力集中在相对正确的路径上。但说实话,光靠这样的东西不太可能实现超越的,因为大家的路径是一样的,因此最后你可能最多做到和tGPT一样。
这正是智谱选择自研 GLM 预训练框架的原因。我们尝试用局部的或者整个链条中的一些创新突破,来提升我们追赶的速度。
OpenAI起步比较早,发展的速度体现为曲线的斜率,国产大模型起步比它晚,只有用一点一点的积累去调整发展速度,调整曲线的斜率,才有可能预期会越来越近,会有一个交叉的点。
因此,算法、系统工程、数据、应用到落地等等这一个链条上,所有的创新累加起来,才有可能去超越它。
《深网》:未来各巨头都会有自己的大模型,产品会不会趋同,差异化在哪?
张鹏:我们公司在做全局的能力,这些能力对对于AGI的整个的目标达成,是必不可少的部分,有些会偏向应用去做,有些是偏向行业去做,慢慢的会有一些差异。
“从0到1”的标签
《深网》:OpenAI前一阵的人事风波对GPT的技术演进影响大吗?
张鹏:目前看起来好像没有太大的影响。
《深网》:在您看来,国内大模型目前和硅谷的差距主要在什么维度?
张鹏:差距从各个方面都能列举一些出来,我觉得本质还是大家对这个事情的认知。以OpenAI和谷歌这些世界顶尖级团队为代表,他们对大模型的认知一定是非常高的。
《深网》:为什么存在这种差异?
张鹏:去年参加一些论坛和圆桌,大家讨论认为,中国人不太擅长0到1,但很擅长1到100。我在思考为什么?大家去总结过去的一些事情,以移动互联网和互联网举例,中国都不是技术的起源,但从应用的角度来说,中国的公司跑的都很猛,超过了美国公司。
当然这些过去不足以去贴一个标签,限制自己去想0到1的事情,我一直在想,我们应该能够把这个标签彻底扔掉,不要用它来限制自己创新和进步的脚步。
《深网》:你认为大模型的本质是什么?
张鹏:我觉得大模型是我们在探索AGI的过程当中,尝试去理解或者是模拟接近人脑的认知能力的一种技术手段,它是基于人工智能的行为学方法。
《深网》:如何看待AGI下半场的竞争格局?
张鹏:严格来讲不叫AGI的下半场,应该是生成式AI的第二场。后面还有几场,我不知道。
AGI也不等同于生成式AI。大模型可能是我们在追寻AGI过程当中一个非常有效的技术手段,但可能并不代表AGI。AGI很难,还有很多问题需要去解决。
《深网》:对国内的通用大模型来说,现在是个什么样的节点?
张鹏:我想经过 2023 年的充分竞争,现在我们逐渐可以说进入一个决战时刻了。
“闭源让企业更容易获取收益”
《深网》:开源和闭源,目前来看会导向两条不同的技术和产业路径?
张鹏:开源和闭源确实是两个事情。开源、闭源和商用之间是什么样的关系?
在我看来,开源是整个产业大的生态里必不可少的一环,是技术的多样性和创新的活力和动力。开源会有一些允许的,会被拿去做商业,但真正大规模的商用最终会落到闭源。商业价值上,尤其对中大型客户而言,选择并不在于这个技术本身获得的成本,还包括了技术的稳定性,支持程度,一致性,服务和安全一系列的问题。
从商业应用来讲,闭源版本可能会让企业获得更好收益,来维持比较好的商业化服务,所以开源和闭源目的不一样,本质也不一样。
《深网》:能否分享下智谱商业化落地进展?
张鹏:从整个商业化落地的路径上来说,我们会有自己的一些选择,这个选择是来源于我们团队的基因,以及我们对当前市场的一个综合判断。我们很早就确定我们要做TO B,我们也罢商业化落地的主要精力放在这块;TO C我们也会去做,但我们的目的也比较明确,把闭环做起来,给未来也留下一个可能性, TO C应用这一块可能未来也是一个要爆发的点。
TO B这块像开放平台,实际上是我们对于TO B服务落地的一个具象化的结果。
《深网》:人工智能此前没有爆发,是不是缺一款划时代的产品?
张鹏:人工智能的爆发不是一个产品能决定的事情。就像上一代AI的技术,能够说它不够爆发吗?每天刷脸,支付,语音都已经到这种程度了,算不算爆发,但大家为什么认为那个不算爆发?可能潜意识里觉得它不是我们想象中的人工智能,而更像是工具。
《深网》:国产手机也在开发端侧大模型,英特尔和联想等开始发力AIPC,这些硬件领域的AI革命会不会带来相关产业的重塑?
张鹏:我觉得大概率会,大家希望在手机上用到新东西,需求是存在的。第一怎么把这个技术的路径走通;第二把成本降下来;第三个把使用的体感提升上去,某种程度上讲,这三件事是同步要进行的。