2022 年底,ChatGPT 的诞生,引发了全球科技界的狂欢。
它让人感兴趣的地方不只在于所具备的强大的认知能力,还包括新颖的收费方式,即按照 token 收费。(编者注:这里的“token”通常是指文本处理中的基本单位。)
换言之,ChatGPT 按照用户输入和输出的“字数”进行收费,费用约为“$0.002 per 1k tokens”,也就是每 1000 个 token 的费用是 0.002 美元。
图丨按数据类型划分的全球数据量和大语言模型 token 成本的趋势(来源:arXiv)
对此,上海交通大学王铮副教授有一个直觉:如果全世界的数据都采用 ChatGPT 来处理,一定会产生巨大的开销。
图丨王铮(来源:王铮)
他和团队经过简单评估后发现,事实的确如此。
就以 2025 年为例,大语言模型的总体开销可达 5000 万亿美金,约为美国 2023 年 GDP(27.37 万亿美元)的 214 倍。
此外,他们也发现,尽管关系数据库占据了全球数据管理系统 73% 的市场份额 [1],但基于大语言模型的关系数据库智能分析方面的工作,尚属空白。
在此背景下,他们决定发起 rLLM(relationLLM)项目,打造一个能够快速、经济、高效地搭建关系表格学习和大语言模型协同的算法平台。
并且,也提出了首个关系表格学习算法 BRIDGE,在标准的表格分类任务上,其结果常常能优出传统方法 2 至 3 倍。
近日,相关论文以《rLLM:使用大型语言模型进行关系表格学习》(rLLM: Relational Table Learning with LLMs)为题在预印本平台 arXiv 上发表 [1]。
图丨相关论文(来源:arXiv)
据王铮介绍,虽然 rLLM 的第一个版本在 2024 年 8 月才正式发布,但同年 2 月,第一个内部测试版本就已经出现,只是那时还缺少关于 rLLM 的用户使用反馈。
为解决这一问题,王铮将该项目作为上海交通大学大三年级“IEEE 试点班”《信息内容理解》课程的“打榜”大作业,要求学生以分组的形式,每周在标准的数据集和任务上进行“PK”(精度、时间和开销)。
通过该方法,该课题组收获了很多 rLLM 的使用反馈,这为版本的后续改进提供了有效参考。
那么,rLLM 这一平台的应用前景如何?
从功能上看,目前数据库产品主要分为联机事务处理和联机分析处理两种类型,前者主要负责基本的事务处理,例如对银行交易进行记录和查询,后者主要负责数据的统计分析,例如生成银行交易整体分析报告。
所以,联机智能分析(OLIP,Online Intelligent Processing)一直比较缺乏。
王铮表示:“实际上,业界一直都想做 OLIP,只是效果不太理想,如今大语言模型的出现,给这个方向带来了曙光。”
也就是说,rLLM 可以被认为是在 OLIP 领域的一次良好探索。据了解,目前该项目已获得国内头部科技公司的资助,正与后者的业务系统进行对接实验。
另外,如果从宏观上看,以关系数据库为代表的数据行业,拥有较为成熟的万亿规模市场。
与此同时,大语言模型正掀起新一轮人工智能革命,潜在市场规模巨大,极有可能颠覆传统人类社会底层经济运行逻辑。
所以,假如 rLLM 和其他“数智协同”项目能为上述两个领域搭建一座桥梁,将会带来重大的科技与经济意义。
这里,需要说明的是,“数智协同”可以形象的被理解成 AI 时代的操作系统,不仅要调度各类 AI 模型,还要调度各类数据管理系统,这样才能支撑起未来全球经济生活的方方面面。
当下,中国拥有全球最丰富的“数智协同”场景。因此,在该研究的基础上,该团队接下来也计划联合学术界和企业界的合作伙伴,开发一系列相关的解决方案。
王铮指出,在计算机领域,有一个隐秘的“20 年周期定律”:如果一次技术浪潮能够成功,那么其将在第一个十年中经历从萌芽到泡沫的过程,在第二个十年里经历各类技术各自占领市场的过程。
其中,比较有代表性的是大数据技术。从 2003 年谷歌“三驾马车”诞生至今差不多有 20 年,各类大数据技术已经都发展成熟并获得广泛应用。
“而当下也正处于‘AI 的 20 年周期’。前十年从 2012 年图灵奖获得者杰弗里·辛顿(Geoffrey Hinton)和学生的深度学习算法 AlexNet 碾压式的 ImageNet Cup 夺冠开始,后十年以 2022 年底 ChatGPT 的推出作为起点。”王铮表示。
从这个角度来看,未来十年会是各类 AI 技术的决胜阶段。
“我很期待中国高校和科技公司能在该领域开创出一片天地。”王铮如是说。
参考资料:
1.https://db-engines.com/en/ranking_categories
2.Li W, Huang X, Zheng J, et al. rLLM: Relational table learning with LLMs.arXiv:2407.20157, 2024.https://doi.org/10.48550/arXiv.2407.20157
运营/排版:何晨龙