AI加速数据驱动。
作者|赵健
字节跳动的大模型又有了新的进展。
目前为止,字节跳动已经公开发布了三款大模型相关产品:
第一款是火山方舟,这是火山引擎在今年6月发布的MaaS云产品,其中集成了市场上主流的第三方大模型。
第二款是抖音发布的类ChatGPT对话机器人产品“豆包”,其底层基于字节跳动自研的云雀大模型,在8月31日首批通过备案并公开上线。
第三款产品,就是火山引擎昨天刚刚发布的数据产品“AI助手”,是火山引擎发布的第一款接入了大模型的数据产品,帮助企业解决数据处理与查询分析等功能。
火山引擎总裁谭待认为,数据飞轮将是大模型在企业市场应用落地的一个重要方向。他表示,大模型降低了企业挖掘数据价值的门槛,更高效地构建以数据消费为核心的数据飞轮,“AI加持的数据飞轮将成为企业做好数据驱动的一个新范式。”
相比其他大厂,字节跳动对于大模型的态度相对低调。但是大模型浪潮,字节跳动绝不会缺席。
本次火山引擎发布的“AI助手”,是火山引擎数智平台产品接入大模型的一次实践。
火山引擎数智平台(Volcano Engine Data Intelligence,简称VeDI)由火山引擎在2021年12月2日正式对外发布,如今已经是一套覆盖IaaS、PaaS、SaaS、解决方案与咨询的端到端全链路云上数据产品。
火山引擎数智平台产品图
火山引擎数智平台的前身就是字节跳动数据平台产品,它沉淀了字节跳动在数据上的最佳实践,也将数据驱动的理念根植于字节跳动的基因之中。
AI助手接入大模型有两种方式,一是直接接入字节跳动自研的云雀大模型,二是通过火山引擎在今年6月发布的火山方舟MaaS平台,接入第三方模型,比如智谱AI、百川智能、MiniMax等。
字节跳动数据平台负责人罗旋表示,大模型在数据产品中的应用,也改变了字节跳动内部探索数据价值的方式。
字节跳动数据平台负责人罗旋
目前,数智平台VeDI的两款产品接入了大模型——大数据研发治理套件DataLeap、智能数据洞察DataWind,前者是一款PaaS产品,后者是一款SaaS产品。
罗旋认为这两款产品已经覆盖了数据生产与消费全链路场景的绝大多数环节,可以概括为三个:
数据资产的查询和开发,是数据消费的前置步骤。非研发人员利用“DataLeap找数助手”模块,通过问答式检索,能高效准确找数,实现员工自助数据消费第一步;
数据生产环节,基于DataLeap开发助手模块,使用文字描述或数据模型,就可以自动生成代码、一键优化,以及对话式咨询SQL使用问题等,让数据开发简单高效;
数据洞察方面,利用DataWind分析助手,非专业分析人员通过自然语言对话,可完成SQL查询修复、自动生成可视化图表和飞书对话式分析等一系列业务探索,缩短数据分析周期。
火山引擎总裁谭待表示:“VeDI的两款产品,不但降低了非专业人员数据消费的门槛,还解放了专业人员,让其可以聚焦复杂场景的需求,提高研发生产效率与代码质量。”
罗旋承认,大模型的“幻觉”问题今天为止还没有彻底解决。所谓幻觉,就是指大模型生成的内容,不是基于任何现实世界的数据,而是大模型自己想象的产物,即“一本正经地胡说八道”。
但罗旋表示,我们可以通过一些方法,一定程度上缓解精确度的问题。比如,把AI的推理过程“白盒化”,以产品化的形式向用户展示,如果出现错误用户可以及时地发现。这是当前最重要的思路之一。
另一方面,模型本身能力的提升也会缓解这一问题,比如GPT-4在解决“幻觉”能力上要比GPT-3.5有巨大提升。同时,在基础模型之上加一个行业专属语料做精调,也可以降低幻觉,提升准确率。
大模型在数据产品中的应用,在字节内部业务比如抖音电商实践中已初步获得成效。
目前,字节跳动内部80%的员工可以直接使用数据产品,可管理、运营的数据资产覆盖80%的日常分析场景。
数智平台AI助手已经开启内测,但还不会大规模开放。火山引擎会邀请一些客户深度共创,计划等产品打磨成熟时候再对外公开。
在企业软件领域,数据处理与分析类产品是一个比较成熟的主场,市场上有大量的大数据公司、数据中台公司。
比如,海外比较知名的大数据公司有Snowflake、Databricks,两者今年在大模型领域也做了大量布局。
在被问及与Snowflake的区别时,字节跳动数据平台负责人罗旋表示,Snowflake本质上是一个数据仓库引擎(PaaS层),在功能做大之后开始向上往数据分析的产品矩阵方向发展。而火山引擎一开始更强调上层业务,比如A/B测试这款SaaS产品完全没有对标,然后再完善数据资产到数据底层能力的建设。
“如果用数据飞轮来比较,我们更强调两个轮子——数据应用与数据资产建设能力的兼备。”罗旋表示。
这两种数据能力建设思路的不同,一定程度上反映了中外企业对数据的应用能力的不同。
在中国市场,不少企业数字化建设较多,却无法较好释放数据价值,存在数据建设与管理成本高、数据产品使用门槛高、数据资产价值低的问题。这是一个普遍的痛点。
火山引擎总裁谭待认为,原因在于业务和数据之间没有形成双向良性驱动。“数据消费是目的,数据中台建设是手段,过去很多企业错把手段当成了目的,因此即使建设了数据中台,也不知道怎么用起来。”
为解决这一痛点,今年4月,火山引擎对外发布企业数智化升级新模式“数据飞轮”,核心要素就是做好“数据消费”。
火山引擎数据飞轮
如何理解数据飞轮与数据消费?
过去的数据中台建设通常都是一个技术问题,但技术与业务之间常常存在割裂。得到App联合创始人&CEO脱不花,也在现场也分享了得到业务团队与技术团队在数据治理之前针对数据的非共识。
而在数据飞轮理念下,数据能力的建设都是业务驱动,跟客户不是先聊技术,而是先聊业务。如果现有的数据产品,比如AB测试/已经满足应用,那就直接开箱即用;如果不能满足需求,再考虑进行数据资产的建设。
这听起来似乎是一个很简单的理念,但对于数据服务商却提出了更高的挑战,因为它要求数据服务商要尽可能地了解行业、甚至更细节的业务场景的业务逻辑。这并非技术问题,而是需要长时间的行业经验的积累。
火山引擎之所以提出数据飞轮的理念,最核心的原因,就是这是基于字节跳动自身数据实践,是一套已经被验证过的方法论,并沉淀在相应的数据产品中。
产品无法满足的,好可以通过咨询服务来满足。火山引擎专门设置人员来提供UG咨询服务、数据BP咨询服务,解决客户早期的业务问题。
所以,这是一套短期内难以复制的数据理念。某种程度上,这才是火山引擎数据产品最大的竞争壁垒。
大模型的出现与数据飞轮的理念相吻合,因为两者都是在降低数据使用的门槛,让数据更高效地发挥业务价值。
谭待表示,构建以数据消费为中心的数据飞轮,将是企业数字化建设的必然趋势,“火山引擎VeDI还将进一步升级,通过AI+数据飞轮持续降低数据消费门槛,充分释放企业的数据价值,帮助企业更好地从数据中获取增长的动力。”
(封面图为火山引擎总裁谭待,图片来自火山引擎)