当前位置:首页|资讯|OpenAI|编程|AI大模型|GPT-4

全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent

作者:智东西发布时间:2024-01-26

原标题:全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent

智东西

作者 | ZeR0

编辑 | 漠影

智东西1月16日报道,在今日举办的智谱AI技术开放日上,国内当前估值最高的AI大模型独角兽智谱AI发布了新一代基座大模型GLM-4,性能比上一代提升接近60%,整体评测结果逼近GPT-4,支持更长的上下文、更强的多模态、更快速的推理、更多的并发,大大降低推理成本,同时GLM-4也增强了其智能体(Agent)的能力。

智谱AI CEO张鹏称,围绕GLM预训练框架,智谱AI形成了一个相对完整的大模型全栈技术体系架构,功能覆盖多模态、代码生成、搜索增强和对话,对标OpenAI的全栈大模型生态

“我们努力赶上,同时我们也谦虚地承认,自己还存在着一定的差距,但不懈努力让我们开始逐渐形成我们自己的创新的特色,也借助于此逐渐缩小与顶尖水平的差距。”张鹏说。

除了带来基座模型GLM-4之外,智谱AI还推出GLM-4 All Tools,实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call等多项工具来完成复杂任务。这意味着GLM系列模型的全家桶能力实现工业化,开发者及用户可以更轻松地使用GLM-4模型,不再为提示词而担心。

GLMs个性化智能体定制功能智能体中心同时上线。基于GLM-4模型,用户只要登陆智谱清言观望,使用简单的提示词指令就能创建属于自己的智能体。在智能体中心中,用户可分享各种智能体。没有编程基础的用户也能实现大模型的便捷开发。

有兴趣体验的用户可登陆智谱清言官网或App。GLMs模型应用商店、开发者分成计划也将同期公布。

GLM-4登陆了MaaS平台,提供各式API访问。同时,智谱AI邀请开发者参与GLM-4 Assistent API内测,并将为报名的小伙伴赠送千万级token,也邀请大家一起开发属于自己的GLM应用。

从ChatGLM一代、二代、三代至今,智谱AI几乎开源了所有内核的模型,包括千亿基座模型、搜索增强模型、图形理解模型、代码模型、文图生成模型、图形增强理解模型、可视化认知Agent模型。张鹏希望这些模型能够帮助大家深入认知大模型的技术,而不是简单的仅仅会用,进而帮助大家一起探索大模型技术的未来。

现场,张鹏还分享了智谱AI联合发起的多个大模型基金,包括CCF-智谱大模型基金、SMP-智谱大模型交叉学科基金、大模型开源基金、10亿元“Z计划”创业基金,为大模型的相关科研与早期创业提供资助。

一、GLM-4:性能逼近GPT-4,支持128k上下文,多模态能力升级

智谱AI新一代基座大模型GLM-4,整体大模型评测结果接近GPT-4。

在大规模多任务语言理解评测中,GLM-4得分远超GPT-3.5,平均达到GPT-4的95%的水平,个别项目上已几乎持平;在GSM8K数学评测数据集上,GLM-4的评测结果与GPT-4有4.6%的差距;在MATH数据集上,GLM-4得分比GPT3.5多15%,比GPT-4少9%。

谷歌推出的AI基准测试套件BBH可评估语言模型在各种复杂任务上的性能,在这项评测中,GLM-4得分远超GPT3.5,距离GPT4只差不到1%;在OpenAI编写发布的代码生成评测数据集HumanEval上,GLM-4的水平超过GPT-3.5和GPT-4。

在跨语言中英文混合评测中,GLM-4在Prompt级别、中文的成绩达到GPT-4的88%。在指令跟随方面,GLM-4的能力达到了GPT-4的90%,远超GPT-3.5。

在中文对齐能力方面,智谱AI有一个单独的全面对标分析,包括公开的AlignBench和一个没有公开的内部的测试数据集。在AlignBench上,总体GLM-4得分超过了GPT-4 6月13日发布版本,逼近最新的GPT-4 Turbo版本效果,在专业能力、中文理解、角色扮演等方面甚至超过最新GPT-4的进度,在中文推理方面则还需进一步提升和加强。

GLM-4可支持128k上下文窗口单次提示可处理300页文本。同时,其技术团队解决了上下文全局信息因失焦而导致的精度下降问题,在“大海捞针”测试中,GLM-4模型能做到几乎100%的精准召回。

多模态方面,GLM-4的文生图和多模态理解都得到进一步加强,推出全新的CogView3,效果超过开源的SDXL模型,逼近OpenAI的DALL·E 3。在对齐、保真、安全、组合布局等各个评测维度上,CogView3都做到DALL·E 3 90%以上的水平,平均可以达到95%的相对性能。

CogView3能够很好地生成手部图像,其语义能力也进一步增强,可准确理解“鱼眼镜头”这样容易被机器会错意的概念,对颜色、场景、空间位置的理解也都很准确。

使用GLM-4V开源模型,你可以做很多有意思的事情,比如给定一个截图的网页表格,让它转化成markdown格式,这样就能直接复制粘贴到需要用到的地方。输入一张绘画,它也能准确理解图中所表达的信息。

智谱AI最近还提出了CogAgent模型,通过UI截图输入来理解图中的每一处信息,根据用户提问告知下一步完成相应的任务需要点击哪里,或者做出怎样的操作。这是智谱将来会着重投入的方向:从多模态走向智能助手,让机器能直接理解屏幕上的文字、图像和信号,不需要转化成一个个token输入到模型中,如果能完成这样一件事,将极大解放劳动力。

智谱AI希望未来让CogAgent理解各种屏幕,例如手机屏幕或其他的知识和图表,用多模态改变人们的生活。其团队预测,多模态模型可能在1~2年内能够全面超越人类的视觉识别能力。

二、GLM-4 All Tools全家桶、GLMs智能体中心上线!不会编程也能定制专属Agent

针对令许多开发者及普通用户犯难的“AI咒语”提示词问题,智谱AI推出GLM-4 All Tools全家桶

GLM-4 All Tools实现了根据用户意图自动理解、规划复杂指令,自动调用文生图、代码解释器、网页浏览、Function Call等功能,组合起来完成复杂任务。

只需输入一个指令,GLM-4就会自动分析指令,结合上下文选择决定调用合适的工具。这也是OpenAI近期推出的GPTs的一项基础能力。

张鹏说,这意味着GLM系列模型的全家桶能力终于实现了,开发者和用户可以更轻松地使用GLM-4的模型,不再为提示词而担心。

文生图为例,输入“画一个卡通柯基”的提示,再在后续新增“它开始跑步了”、“一只小兔子加入它一起”、“它跑的越来越快了”等一连串追加的提示词,CogView3能准确接收用户的意思,实现故事化的自动连续生成,语义非常准确。

现场还演示了让GLM-4画出满足让柯基狗“给它读很多书 变聪明”、“让它学习使用电脑”等提示词的图像,美中不足的是在演示时,每次图像生成的等待时间有点长。

同样,GLM-4能自动调用代码解释器进行复杂方程或微分积分的求解,对比GSM8K、MATH和Math23K这三个数据集上的测试结果,GLM-4取得了与GPT-4相当的性能。

GLM-4通过自动调用Python解释器,自动写出求解的代码,然后运行求解。加入代码解释器后,输出的不仅仅是文本和代码,也可以是图像文件等。

除了解决数据问题外,GLM All Tools能力完全自动化,可以完成文件处理、数据分析、图表绘制等一系列复杂任务。可处理的文件类型包括常见的Excel、PDF、PPT等格式。

还有自动网页浏览,GLM-4模型可根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。

比如告诉模型你要参加某个大会,向它询问当地天气状况,但并没有告诉它大会在哪里举行,这时它会自动检索大会日期和地点,然后告诉你准确的答案。

“GLM-4 All Tools的网页浏览准确率已经超过了GPT-4,值得我们的自豪。”张鹏说。

在多跳式问答的复杂场景中,仅通过一次检索可能无法检测到有效信息,此时传统检索生成方法就存在较大的局限性。而GLM-4 All Tools的高级联网功能,使得模型的自主信息收集能力变得更强大。据介绍,其方案相比GPT-4的Web browsing功能也有比较明显的优势。

Function Call方面,GLM-4 All Tools可根据用户提供的function描述,自动选择所需function生成参数,并根据function的返回值生成回复,支持一次输入进行多次function的调用,和支持包含中文以及特殊符号命名的function的调用。这方面的能力与GPT-4已基本持平,而且在中文理解上更强,英文能力稍差,总体上达到持平。

来看一个多工具自动调用的例子,比如可以问它智谱DevDay的宣传语,让它画一幅突出宣传语的场景图,模型自动进行搜索,找到一些相关发布的页面,从中总结和识别宣传语内容,进而生成一张能还原宣传语意境的图片。

再来看另一个例子。GLM-4可查询过去10年中的全球GDP数据并进行直观展示,它能识别语义并联网,对多个数据源进行检索,生成一段代码,把找到的数据可视化,生成一张简单的图表。只要一句简单的输入,就能启动联网搜索、提取代码解释器、绘图等多项模型原生能力。

还可以让GLM-4搭建一个多项式回归预测模型,预测未来5年全球GDP的发展态势,并把预测结果以红色的标记加入到原有的图表中,以便更加直观地看到发展趋势。

“GLM-4的权限提升,使得我们有机会探索真正意义上的GLMs。”张鹏说,登陆智谱清言官网或App,智谱AI已经为大家预设了一个智谱DevDay智能体,你可以自己上手体验,询问一些跟今天大会相关的事宜,比如日程、有哪些主题演讲、演讲PPT文件下载链接等等。

创建这样一个简单的智能体,只需要3分钟,把大会的会议日程、嘉宾信息当作外部输入知识放进知识库,就能自动生成智能体。

以后大家自己组织活动,也可以来定制一个这样的智能体,让智谱清言帮你与参会者进行沟通。

接着,张鹏宣布,GLMs个性化智能体定制能力上线

基于GLM-4模型,用户只要登陆智谱清言官网,用简单的提示词指令就能创建属于自己的智能体。在其智能体中心中,用户可分享自己创建的各种智能体。

张鹏说,GLM模型智能体的推出,标志着任何人都能够自由运用GLM-4模型并挖掘其潜力,即使没有任何编程语言的基础,也能够实现大模型的便捷开发,这也是智谱AI扩大大模型开发者社区生态的一次进步。

三、发起多个大模型基金,支持科研与创业探索

张鹏谈道,智谱AI源自清华科技成果转化,非常重视科研突破和源头创新,也希望无私回馈科研界,因此联合CCF中国计算机学会,发起CCF-智谱大模型基金,围绕预训练大模型的理论、算法、模型应用等相关的研究提供资助。

与此同时,智谱AI联合中国中文信息学会、社会媒体处理专委会联合发起了SMP-智谱大模型交叉学科基金,支持探索大模型与各领域交叉的创新,促进大模型与各类学科的有机的融合。

所有科研基金参与者拥有自己研发的知识产权。这两支基金在2023年为来自全国30余所高校参与的41个研究项目累计提供了超过1000万元现金和算力资源的科研支持,学者们的学科背景也丰富多元。张鹏相信,学术创新是中国大模型事业持续发展创新的原动力之一。

2024年,面向开源社区,智谱AI发起大模型开源基金,旨在推动大模型研发的发展,促进大模型开源生态的繁荣。

该开源基金可用3个“1000”来概括:第一个“1000”是智谱将为大模型开源社区提供1000张卡,助力开源开发;第二个“1000”是智谱将提供1000万元现金来支持大模型相关开源项目;第三个“1000”是智谱将为优秀的开源项目开发者提供1000亿免费API的tokens。

张鹏说,中国人工智能事业的繁荣发展需要产业链上下游、合作伙伴、开发者社区和学术界所有参与者一同努力。面向全球,智谱AI与生态伙伴联合设立并发布10亿元“Z计划”创业基金,支持大模型早期创业者的创新探索,覆盖大模型算法、底层算子、芯片优化、行业大模型、超级应用等各方面。

此前智谱AI已向相关企业投入数亿元人民币,支持了数十家企业,比如面壁智能是国内最早从事也是最懂Agent的大模型公司,基流科技曾有过上万张GPU卡集群建设的项目经验。

四、坚守开源,已拥有2000多家合作伙伴

回首来时路,张鹏说,智谱AI成立于2019年,从清华园走出,当时才20多人,立下「让机器像人一样思考」的愿景。从探索算法到开始训练,从十亿、百亿到千亿级模型,再到逐步实现产业化应用落地,智谱一路走到今天。

回顾大模型过往发展历程,2017年,谷歌提出Transformer机器学习模型架构,这成为自然语言处理(NLP)等相关研究的主要方法。

2018~2020年是大模型算法创新阶段,先后出现了BERT、GPT、T5等基于无标注数据自监督学习的大规模训练模型算法,这些算法模型拥有较大规模的参数,具备了较强的通用化能力,可完成多场景任务,显著降低学习成本,提升了学习效率。智谱也在这一阶段研发了自己的算法。

2020年~2022年是一场模型之战,基于预训练模型框架和开源项目,各种模型如雨后春笋般诞生。2020年的GPT-3拥有1750亿个参数,可以视作该阶段的起点,开启了基座模型的全新时代。随后全球掀起一股大模型研究和研发热潮。智谱AI在2022年开源了千亿级基座模型GLM-130B,这一工作吸引了全世界的关注。

2023年,大模型开始火出圈,在金融、能源、教育等众多行业开始落地,被公众广为所知,智谱AI联合合作伙伴实现广泛的商业应用落地。基于GLM-130B研发的ChatGLM-130B,是当时国内最先可线上使用的千亿级Chat模型。

张鹏坦言,和国外大模型相比,国内的大模型发展起步晚了一些,加上高性能算力限制、数据质量的差距等,国内大模型在规模和核心能力上都与世界先进水平存在一定差距,这样的差距大约在一年左右

今天,智谱AI交出了新的阶段性答卷,也希望以此为起点,未来瞄向通用人工智能(AGI)。

张鹏说,智谱GLM系列模型基本对标OpenAI的GPT系列模型,但更加开放,所有模型和技术细节都进行了论文发表和开源。在斯坦福大学对全球30多个大模型的评测报告中,智谱GLM-130B是亚洲唯一入选的模型,在准确性、公平性等指标上接近GPT-3,在鲁棒性、校准误差、无偏性等指标上优于GPT-3。

2023年ChatGLM经历了3个版本的迭代,逐步具备多模态理解、代码解释、网络搜索增强等新功能,智谱不仅开发了其最大的模型商用版本,也有开源版本,ChatGLM-6B开源模型迄今全球下载量累计超过千万,在开源趋势榜单上排名超过Meta Llama大语言模型。

去年,智谱AI团队获得了Hugging Face全球最受欢迎的开源机构排行榜第五名,超过OpenAI、谷歌、微软,是国内唯一上榜的机构。开发者们在智谱的开源模型上开发出了600多项优秀的大模型应用开源项目。

在商业化成绩方面,智谱AI在市场上率先提出了MaaS商业化路径,并详细针对不同类型客户群体的需求,提供开放的API云端私有化和本地私有化等多种商业解决方案。迄今GLM系列模型已拥有2000多家合作伙伴,其中有200多家企事业单位与智谱AI进行了深度的模型共创共建。

结语:AGI元年伊始,但路还很长

“人工智能大模型已经成为国际科技竞争的必争之地,实现国产的全资源自主可控的人工智能技术模型,也是迫在眉睫的任务。”张鹏谈道。

在他看来,大模型的快速发展给全球科技创新带来全新挑战,超大规模的算力需求、超大规模的数据需求、全新的模型训练算法框架安全与可行的软硬件的系统,大模型的应用需求也更加动态和多样化,要求对大模型的不同层次进行更深入的研究。这是个全新的AI科学难题,但也是一个我们赶超国际领先水平的机会。

2024年是AGI的元年,但路还很长。张鹏说,今天智谱将心目中的AI未来呈现在大家面前。在2024年乃至更长远的未来,智谱AI将坚持更开放的心态,团结更广泛的合作伙伴,共创AI未来。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1