当前位置:首页|资讯

上交团队打造新型算法平台,实现关系表格学习和大语言模型高效协同

作者:DeepTech深科技发布时间:2024-12-15

上交团队打造新型算法平台,实现关系表格学习和大语言模型高效协同

全文1768字,阅读约需6分钟,帮我划重点

划重点

01上海交通大学王铮副教授带领团队发起rLLM项目,打造关系表格学习和大语言模型高效协同的算法平台。

02他们提出了首个关系表格学习算法BRIDGE,在标准表格分类任务上,结果优于传统方法2至3倍。

03然而,rLLM在2024年8月发布第一个版本,同年2月已有内部测试版本,但缺乏用户使用反馈。

04为此,王铮将该项目作为上海交通大学大三年级“IEEE试点班”《信息内容理解》课程的“打榜”大作业。

05目前,rLLM已获得国内头部科技公司的资助,正与后者的业务系统进行对接实验。

以上内容由腾讯混元大模型生成,仅供参考

2022 年底,ChatGPT 的诞生,引发了全球科技界的狂欢。

它让人感兴趣的地方不只在于所具备的强大的认知能力,还包括新颖的收费方式,即按照 token 收费。(编者注:这里的“token”通常是指文本处理中的基本单位。)

换言之,ChatGPT 按照用户输入和输出的“字数”进行收费,费用约为“$0.002 per 1k tokens”,也就是每 1000 个 token 的费用是 0.002 美元。

图丨按数据类型划分的全球数据量和大语言模型 token 成本的趋势(来源:arXiv)

对此,上海交通大学王铮副教授有一个直觉:如果全世界的数据都采用 ChatGPT 来处理,一定会产生巨大的开销。

图丨王铮(来源:王铮)

他和团队经过简单评估后发现,事实的确如此。

就以 2025 年为例,大语言模型的总体开销可达 5000 万亿美金,约为美国 2023 年 GDP(27.37 万亿美元)的 214 倍。

此外,他们也发现,尽管关系数据库占据了全球数据管理系统 73% 的市场份额 [1],但基于大语言模型的关系数据库智能分析方面的工作,尚属空白。

在此背景下,他们决定发起 rLLM(relationLLM)项目,打造一个能够快速、经济、高效地搭建关系表格学习和大语言模型协同的算法平台。

并且,也提出了首个关系表格学习算法 BRIDGE,在标准的表格分类任务上,其结果常常能优出传统方法 2 至 3 倍。

近日,相关论文以《rLLM:使用大型语言模型进行关系表格学习》(rLLM: Relational Table Learning with LLMs)为题在预印本平台 arXiv 上发表 [1]。

图丨相关论文(来源:arXiv)

据王铮介绍,虽然 rLLM 的第一个版本在 2024 年 8 月才正式发布,但同年 2 月,第一个内部测试版本就已经出现,只是那时还缺少关于 rLLM 的用户使用反馈。

为解决这一问题,王铮将该项目作为上海交通大学大三年级“IEEE 试点班”《信息内容理解》课程的“打榜”大作业,要求学生以分组的形式,每周在标准的数据集和任务上进行“PK”(精度、时间和开销)。

通过该方法,该课题组收获了很多 rLLM 的使用反馈,这为版本的后续改进提供了有效参考。

那么,rLLM 这一平台的应用前景如何?

从功能上看,目前数据库产品主要分为联机事务处理和联机分析处理两种类型,前者主要负责基本的事务处理,例如对银行交易进行记录和查询,后者主要负责数据的统计分析,例如生成银行交易整体分析报告。

所以,联机智能分析(OLIP,Online Intelligent Processing)一直比较缺乏。

王铮表示:“实际上,业界一直都想做 OLIP,只是效果不太理想,如今大语言模型的出现,给这个方向带来了曙光。”

也就是说,rLLM 可以被认为是在 OLIP 领域的一次良好探索。据了解,目前该项目已获得国内头部科技公司的资助,正与后者的业务系统进行对接实验。

另外,如果从宏观上看,以关系数据库为代表的数据行业,拥有较为成熟的万亿规模市场。

与此同时,大语言模型正掀起新一轮人工智能革命,潜在市场规模巨大,极有可能颠覆传统人类社会底层经济运行逻辑。

所以,假如 rLLM 和其他“数智协同”项目能为上述两个领域搭建一座桥梁,将会带来重大的科技与经济意义。

这里,需要说明的是,“数智协同”可以形象的被理解成 AI 时代的操作系统,不仅要调度各类 AI 模型,还要调度各类数据管理系统,这样才能支撑起未来全球经济生活的方方面面。

当下,中国拥有全球最丰富的“数智协同”场景。因此,在该研究的基础上,该团队接下来也计划联合学术界和企业界的合作伙伴,开发一系列相关的解决方案。

王铮指出,在计算机领域,有一个隐秘的“20 年周期定律”:如果一次技术浪潮能够成功,那么其将在第一个十年中经历从萌芽到泡沫的过程,在第二个十年里经历各类技术各自占领市场的过程。

其中,比较有代表性的是大数据技术。从 2003 年谷歌“三驾马车”诞生至今差不多有 20 年,各类大数据技术已经都发展成熟并获得广泛应用。

“而当下也正处于‘AI 的 20 年周期’。前十年从 2012 年图灵奖获得者杰弗里·辛顿(Geoffrey Hinton)和学生的深度学习算法 AlexNet 碾压式的 ImageNet Cup 夺冠开始,后十年以 2022 年底 ChatGPT 的推出作为起点。”王铮表示。

从这个角度来看,未来十年会是各类 AI 技术的决胜阶段。

“我很期待中国高校和科技公司能在该领域开创出一片天地。”王铮如是说。

参考资料:

1.https://db-engines.com/en/ranking_categories

2.Li W, Huang X, Zheng J, et al. rLLM: Relational table learning with LLMs.arXiv:2407.20157, 2024.https://doi.org/10.48550/arXiv.2407.20157

运营/排版:何晨龙


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1