多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

作者：量子位发布时间：2024-11-20

港科大博士金逸伦投稿

量子位 | 公众号 QbitAI

谁是 在线购物领域最强大模型？也有评测基准了。

基于真实在线购物数据，电商巨头亚马逊终于“亮剑”——

联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准 Shopping MMLU，用以评估大语言模型在在线购物领域的能力与潜力。

一直以来，想要完整建模在线购物相当复杂，主要痛点是：

多任务性：在线购物中存在多样的实体（例如商品、属性、评论、查询关键词等）、关系（例如关键字和商品的匹配度，商品和商品之间的兼容性、互补性）和用户行为（浏览、查询、和购买）。

对这些实体、关系和行为和联合建模与理解构成一个复杂的 多任务（multi-task）学习问题。

少样本性：在线购物平台会不断面临新用户、新商品、新商品品类等带来的冷启动（cold-start）场景。在冷启动场景下，在线购物平台需要解决少样本（few-shot）学习问题。

不过，诸如GPT，T5，LLaMA等的大语言模型（LLM）已经展现出了强大的多任务和少样本学习能力，因而有潜力在在线购物领域中得到广泛应用。

而为了进一步找出最强、最具潜力的LLM，测试基准Shopping MMLU应运而生——

与现有数据集相比，Shopping MMLU覆盖了更多的能力（四项）和任务（57个）。

同时，基于Shopping MMLU，亚马逊举办了KDD Cup 2024数据挖掘竞赛，吸引了全球超过500支队伍参赛。

广泛的能力和任务覆盖

为了全面、充分评估大语言模型在在线购物领域中的能力，研究首先分析了在线购物领域的独特性：

特定领域的短文本：在线购物中存在大量的特定领域名词，例如品牌、产品名、产品线等。此外，这些特定领域名词往往出现于短文本中，例如查询关键词、属性名-值对等。因此，在缺乏上下文的短文本中理解特定领域名词，是在线购物领域的一个独特挑战。
商品的隐含知识：大部分商品都隐含特定的知识，例如AirPods使用蓝牙连接，不需要转接线；碳纤维制品一般重量很轻等。如何准确理解不同商品隐含的知识并且进行推理，是在线购物领域的另一个独特挑战。
异质且隐式的用户行为：在线购物平台上存在多种多样的用户行为，例如浏览、查询、加购物车、购买等。这些行为大部分都不以语言表达，因此如何全面理解这些异质的用户行为，是在线购物所必须解决的问题。
多语言任务：在线购物平台往往在不止一个地区运营，因此需要模型能同时理解多种语言描述下的商品和用户问题。

基于以上分析，研究构造了Shopping MMLU， 覆盖四项在线购物能力，共计57个任务：