当前位置:首页|资讯|微软|AI大模型|大语言模型

微软前高管创业,深耕智能领域8年,打造了间AI大模型工厂

作者:张通社发布时间:2023-10-15

原标题:微软前高管创业,深耕智能领域8年,打造了间AI大模型工厂

简仁贤自南加州大学计算机硕士毕业后至今,已经投身于人工智能的研发与应用二十多年了。

曾亲眼目睹了人工智能技术的兴衰起落后,他在2015年创建了竹间智能科技(上海)有限公司(以下简称“竹间智能”),致力于推动自然语言处理(NLP)的应用边界。

在过去的8年里,竹间智能已经为金融、政务、医疗、制造等6个行业的数百家客户提供了服务。此外,它还成功进行了7轮超过10亿元的融资,并且荣获了国家级专精特新小巨人企业的称号。

全球正迎来大语言模型的浪潮,简仁贤深刻认识到该技术对竹间智能产品的增强作用。为满足ToB企业的需求,竹间智能推出了基于大语言模型的1+4产品系列。在国内AI大模型企业竞争白热化的现状下,竹间智能如何保持差异化优势?简仁贤对NLP领域最新技术突破——AI大语言模型持何看法?

竹间智能创始人&CEO 简仁贤

01

乘AI大模型东风,建造大模型工厂

简仁贤曾在微软(亚洲)互联网工程院担任副院长,主导了第一代AI语音助手小冰和小娜的开发。2015年底,他离开了在微软工作十年的职位,创立了一家名为竹间智能(Emotibot)的企业,专注于自然语言处理领域(NLP)。

在过去的8年里,竹间智能开发了一系列NLP技术平台,如Bot Factory、Knowledge Factory、Emoti Coach、机器学习平台、Gemini等。基于这些技术平台,竹间智能还推出了一系列产品,受到了来自银行、证券、保险、制造、消费等行业的七八百家客户的使用。

2017年,论文《Attention is All You Need》的发布犹如平地一声惊雷,将Transformer架构公之于众。2018年,Open AI以Transformer为基础成功开发出GPT-1模型,标志着自然语言生成(NLG)迎来了一个从0到1的重大突破。随后,Open AI又在2019年和2021年相继推出了GPT-2和GPT-3,使得模型性能达到了前所未有的提升。2022年末,Chat GPT问世,它是全球首个面向普通用户的大型模型应用,迅速风靡全球。

“在2019年,我们相信AI大语言模型的技术趋势已经确立。然而,一个问题是企业什么时候能用得了大模型。”简仁贤告诉张通社。

尽管企业越来越意识到AI大模型降本增效的潜力,但将大模型应用于企业时候,仍然需要跨越称为“产品”的鸿沟。“要在企业中有效使用大模型,需要专业技术人员进行训练和调试,这种人才很稀缺,企业很难招聘得到。”

此外,部署大型语言模型需要消耗大量的计算资源,而企业通常无法承担巨额的算力费用。

更重要的是,在训练大模型时,安全成为企业必须解决的难题,因为大模型需要大量与企业核心竞争力密切相关的数据,一旦这些数据泄露,将会造成无法挽回的损失。

为了解决上述企业的种种难题,让企业用得了AI大模型应用,从而帮助他们实现降本增效,竹间智能在2023年发布了以AI大语言模型为驱动的1+4产品战略。

竹间智能1+4产品体系

简单来说,“1”代表EmotiBrain,它是一个大模型工厂,可以以低技术门槛和信息安全的方式生产适合企业自己的大模型。“4”代表由企业专属大模型可以驱动的4种产品:KKBot、AI Coach、Knowledge Factory和Magic Writer,它们可以分别应用于营销、客服、销售培训、知识管理和文案写作等场景。

02

大模型工厂如何生产企业专属大模型?

对于企业来说,数据是极其珍贵的资产。

创新药企有着最新的药物设计与实验数据,芯片设计公司有着重要的IP数据,消费企业有着规模庞大的用户数据,这些数据无一不体现着它们的核心竞争力。

所以,数据一旦外传,就很有可能导致数据泄露。为了安全得使用内部数据来训练大模型,这些数据必须被放在企业最安全的地方——本地服务器上,用本地的GPU算力来训练。

为了顺应市场需要,竹间智能推出了一体机产品,该产品装载1-8个GPU,价格低于99万元。企业可在本地服务器构建知识库,在本地训练和运行大模型,以扫除数据泄露的风险。

除了解决硬件方面的痛点,竹间智能还在软件方面努力解决行业痛点。

“ChatGPT无法回答专业领域的问题,比如它无法回答一家公司特定产品的问题”,简仁贤解释说,“为此,竹间智能推出了EmotiBrain,被称为‘大模型工厂’,通过降低微调的技术门槛,让0技术基础的人也可为企业打造专属的行业大模型。”

这意味着,一位不懂AI技术的员工进行简单的电脑操作,就能打造企业自己的AI大模型,而这个AI大模型是通晓公司及所处行业的各种知识,能够轻松地回答公司特定产品的问题。

采访期间,简仁贤向张通社演示了EmotiBrain的使用过程:

登陆进用户界面,页面上显示着竹间魔力、竹间竹海、华为盘古、ChatGLM、MOSS、MiniMax、LlaMA2、百川等通用基础模型。

简仁贤勾选了四款模型,又选了法律数据集、医学数据集和财经类数据集,用来训练模型。这些数据集是竹间智能积累了8年的数据。“当然,企业也可提供自己的数据用来训练。”

选好了模型和数据,就剩下挑选微调的方式,这里包括DeepSpeed、LoRA、QLoRA、P-Tuning等最前沿的微调技术。“我们把8年来AI训练和微调的know-how包含进EmotiBrain中,即使不懂AI技术的人,也能轻松搞定属于自己的大模型”,简仁贤说。

接下来,简仁贤按下了提交按钮,背后的GPU就能以TFLOPS的计算性能来训练大模型了。

EmotiBrain

“怎么从4个训练好的模型中选出最好的一个?”

“用户可以向4个模型输入相同的问题,比如‘请写一份采访简仁贤的采访提纲’,以比较哪个模型回答得最好。另外,我们有个Benchmark系统,可在推理、对话、上下文、文本生成等维度向4个模型评分,从而选出评分最高的模型。根据综合考虑,用户可以选择一个其中最满意的模型。”简仁贤回答说。

通过EmotiBrain、私有化部署等产品与服务,竹间智能以简单易用的方式,为企业打造了一个专属AI大模型。这个模型完全归属于企业,敏感数据全都放在本地,从而确保了企业的“数据安全”和“模型安全”。

03

大语言模型可加强产品性能,而非颠覆产品

有了企业自己的大模型驱动,竹间智能的四大产品:KKBot、AI Coach、Knowledge Factory和Magic Writer就有了更强的生命力。

简仁贤解释说,“将自研NLP与大模型结合的产品应用有着巨大的优势,竹间的产品不仅具备了大模型出话的流畅度,也具备了小模型的准确度与可控。”这种大小模型灵活运用的策略被简仁贤称为“NLP双引擎”。

“KKBot的功能类似于微软的Copilot,不但能根据提问生成想要的总结、图片、统计表格、数据分析等,更能根据用户的私有数据来回答问题,直接以用户的私有知识来生成内容与分析。”

2017年,竹间智能根据客户的不同需要,推出了多种对话机器人产品——智能客服、问诊机器人、故障排除机器人、专家机器人等。这些产品在企业专属大模型的支持下,被统一升级为KKBot,它可以嵌进网页版办公软件和竹间智能的其他产品之中。

kkbot的使用界面

简仁贤分享了KKBot的应用案例:一位零售业客户经常更新产品,门店员工需要不断学习新产品知识,但经常忘记。为了提升门店员工服务消费者的能力,这位客户为线下门店销售人员安装了由企业专属大模型驱动的KKBot。

简仁贤说“有了KKBot作为销售助手,员工能很快理解新产品的规格,优劣点,能够准确地回答消费者的任何问题,避免回答消费者问题时出错,进而促进了门店销售和客户满意度。”

除了企业专属大模型可以赋能竹间智能的对话问答产品之外,培训对练产品的功能也因企业大模型大大增强了。原来这些人机对练产品是由NLP小模型作为技术基础,但一旦接入企业专属大模型,这些产品的性能就会大幅提升。简仁贤将这些产品统一称为AI Coach。

简仁贤还介绍了一个AI Coach的应用案例。一位保险行业客户有着上万名销售人员需要培训,却只有三位培训教练。它的培训流程是员工先上视频课程,完成之后,再转到一对一情景训练。可是教练的数量无法支撑得起这么多员工的情景训练。“AI Coach的作用在于有着出色的角色扮演能力,可以充当培训老师,还能模拟作为客户。”

所以,有了AI Coach,新员工就能快速掌握销售技能。“完成培训的时间缩短了一半以上,成效也加倍了。”

除了这些,其他两大产品Knowledge Factory和Magic Writer分别应用于企业的知识管理和写作场景。

1+4产品体系并非由于这股AI大模型浪潮而推出的产品系列,而是竹间智能8年来和各个行业客户打交道而把握出的市场需求,与AI大模型技术相融合的结果。“企业需求早就存在了,只不过我们使用AI大模型能够更好地满足这些需求。”简仁贤补充说道。

竹间智能是做NLP起家的,虽然AI大语言模型是最新的技术突破,但是它仍然是NLP的一个范畴。“我们始终围绕NLP开展业务,即使未来AI大语言模型不再是最新技术,我们仍然能找到更好的NLP技术来驱动我们的产品。” 简仁贤对此充满信心。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1