上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

作者：DeepTech深科技发布时间：2024-12-15

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

DeepTech深科技

2024-12-15 17:46发布于北京DeepTech深科技官方账号

全文1768字，阅读约需6分钟，帮我划重点

划重点

01上海交通大学王铮副教授带领团队发起rLLM项目，打造关系表格学习和大语言模型高效协同的算法平台。

02他们提出了首个关系表格学习算法BRIDGE，在标准表格分类任务上，结果优于传统方法2至3倍。

03然而，rLLM在2024年8月发布第一个版本，同年2月已有内部测试版本，但缺乏用户使用反馈。

04为此，王铮将该项目作为上海交通大学大三年级“IEEE试点班”《信息内容理解》课程的“打榜”大作业。

05目前，rLLM已获得国内头部科技公司的资助，正与后者的业务系统进行对接实验。

以上内容由腾讯混元大模型生成，仅供参考

2022 年底，ChatGPT 的诞生，引发了全球科技界的狂欢。

它让人感兴趣的地方不只在于所具备的强大的认知能力，还包括新颖的收费方式，即按照 token 收费。（编者注：这里的“token”通常是指文本处理中的基本单位。）

换言之，ChatGPT 按照用户输入和输出的“字数”进行收费，费用约为“$0.002 per 1k tokens”，也就是每 1000 个 token 的费用是 0.002 美元。

图丨按数据类型划分的全球数据量和大语言模型 token 成本的趋势（来源：arXiv）

对此，上海交通大学王铮副教授有一个直觉：如果全世界的数据都采用 ChatGPT 来处理，一定会产生巨大的开销。

图丨王铮（来源：王铮）

他和团队经过简单评估后发现，事实的确如此。

就以 2025 年为例，大语言模型的总体开销可达 5000 万亿美金，约为美国 2023 年 GDP（27.37 万亿美元）的 214 倍。

此外，他们也发现，尽管关系数据库占据了全球数据管理系统 73% 的市场份额 [1]，但基于大语言模型的关系数据库智能分析方面的工作，尚属空白。

在此背景下，他们决定发起 rLLM（relationLLM）项目，打造一个能够快速、经济、高效地搭建关系表格学习和大语言模型协同的算法平台。

并且，也提出了首个关系表格学习算法 BRIDGE，在标准的表格分类任务上，其结果常常能优出传统方法 2 至 3 倍。

近日，相关论文以《rLLM：使用大型语言模型进行关系表格学习》（rLLM: Relational Table Learning with LLMs）为题在预印本平台 arXiv 上发表 [1]。

图丨相关论文（来源：arXiv）

据王铮介绍，虽然 rLLM 的第一个版本在 2024 年 8 月才正式发布，但同年 2 月，第一个内部测试版本就已经出现，只是那时还缺少关于 rLLM 的用户使用反馈。

为解决这一问题，王铮将该项目作为上海交通大学大三年级“IEEE 试点班”《信息内容理解》课程的“打榜”大作业，要求学生以分组的形式，每周在标准的数据集和任务上进行“PK”（精度、时间和开销）。

通过该方法，该课题组收获了很多 rLLM 的使用反馈，这为版本的后续改进提供了有效参考。

那么，rLLM 这一平台的应用前景如何？

从功能上看，目前数据库产品主要分为联机事务处理和联机分析处理两种类型，前者主要负责基本的事务处理，例如对银行交易进行记录和查询，后者主要负责数据的统计分析，例如生成银行交易整体分析报告。

所以，联机智能分析（OLIP，Online Intelligent Processing）一直比较缺乏。

王铮表示：“实际上，业界一直都想做 OLIP，只是效果不太理想，如今大语言模型的出现，给这个方向带来了曙光。”

也就是说，rLLM 可以被认为是在 OLIP 领域的一次良好探索。据了解，目前该项目已获得国内头部科技公司的资助，正与后者的业务系统进行对接实验。

另外，如果从宏观上看，以关系数据库为代表的数据行业，拥有较为成熟的万亿规模市场。

与此同时，大语言模型正掀起新一轮人工智能革命，潜在市场规模巨大，极有可能颠覆传统人类社会底层经济运行逻辑。

所以，假如 rLLM 和其他“数智协同”项目能为上述两个领域搭建一座桥梁，将会带来重大的科技与经济意义。

这里，需要说明的是，“数智协同”可以形象的被理解成 AI 时代的操作系统，不仅要调度各类 AI 模型，还要调度各类数据管理系统，这样才能支撑起未来全球经济生活的方方面面。

当下，中国拥有全球最丰富的“数智协同”场景。因此，在该研究的基础上，该团队接下来也计划联合学术界和企业界的合作伙伴，开发一系列相关的解决方案。

王铮指出，在计算机领域，有一个隐秘的“20 年周期定律”：如果一次技术浪潮能够成功，那么其将在第一个十年中经历从萌芽到泡沫的过程，在第二个十年里经历各类技术各自占领市场的过程。

其中，比较有代表性的是大数据技术。从 2003 年谷歌“三驾马车”诞生至今差不多有 20 年，各类大数据技术已经都发展成熟并获得广泛应用。

“而当下也正处于‘AI 的 20 年周期’。前十年从 2012 年图灵奖获得者杰弗里·辛顿（Geoffrey Hinton）和学生的深度学习算法 AlexNet 碾压式的 ImageNet Cup 夺冠开始，后十年以 2022 年底 ChatGPT 的推出作为起点。”王铮表示。

从这个角度来看，未来十年会是各类 AI 技术的决胜阶段。

“我很期待中国高校和科技公司能在该领域开创出一片天地。”王铮如是说。

参考资料：

1.https://db-engines.com/en/ranking_categories

2.Li W, Huang X, Zheng J, et al. rLLM: Relational table learning with LLMs.arXiv:2407.20157, 2024.https://doi.org/10.48550/arXiv.2407.20157

运营/排版：何晨龙

查看原图 122K

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

上交团队打造新型算法平台，实现关系表格学习和大语言模型高效协同

推荐体验

相关资讯

上交打造新型算法平台，实现关系表格学习和大语言模型高效协同

构建人机协同的新型生产关系？大模型落地何去何从

基于AI大模型打造新型智库，赋能企业高效决策和影响力提升

机器学习和深度学习的算法和模型

LLM大语言模型算法特训，带你转型AI大语言模型算法工程师(分享)

近期资讯

印度魔幻股市背后的亿万富豪兄弟

药企的医美“爆款”之路

“特朗普2.0”重构全球资产价格

因一个视频掉粉百万，“羊毛月”冤不冤？

华为Mate 70能否复制Mate 7的奇迹？

富友支付“五战”IPO：一年营收15亿，净利却不足1亿

雷诺：在华吃瘪，横行全球

每天狂烧百万砸广告，头部AI厂商能让人人用上AI吗？

北交所再现主动撤单，用友金融3年IPO折戟，年内过会企业撤单数超去年3倍

近8亿，知名巨头重金押宝香水赛道

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响