汤祚飞：大模型时代的企业应面向AI投喂高质量多模态的数据集

作者：洞悉数字科技发布时间：2024-05-13

2023年以来，以ChatGPT、文心一言为代表的AI大模型与“生成式人工智能（AIGC）”成为全球科技热点，作为一种新型的内容生产和传播方式，AIGC带来新一轮的生产、消费革命，并率先在媒体、营销、电商、游戏、影视、虚拟人等数字化程度高、内容需求量大的行业中发生。

AIGC把数据要素提到时代核心资源的位置，在一定程度上加快了整个社会的数字化转型进程，而AI 大模型则需要高质量、大规模、多样性的数据集。对此，知名品牌数智化专家、热点数智化传播系统创立者汤祚飞认为，AI 大模型给企业营销带来划时代的机遇和挑战。企业应面向AI大模型主动投喂高质量多模态的数据集，构建大模型对企业产品与品牌的数据认知，去影响AI大模型的生成结果，引导其对企业品牌营销产生积极意义。

汤祚飞认为：当AI大模型逐步代替人的思考过程，品牌的目标消费者，会通过大模型，去了解品牌和产品，了解企业的创始人，去对比不同的商品和品牌。这有点类似于搜索引擎和比价软件的作用，然而AI大模型直接呈现对比结果的生成式内容，更加快捷与智能，甚至可能代替消费者进行比较和综合判断的过程。这样的机遇和挑战，将要求企业构建面向AI大模型的品牌营销体系。

大语言模型的数据集一般来自于网络上的大量结构化与非结构化数据，例如百科、书刊、新闻、会议论坛、网页等。这些数据被收集、清洗、标注后，用于训练大型的神经网络模型。目前，海外主要大语言模型数据集主要包含六类：维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集。

国内各行业数据资源丰富，2021-2026 年数据量规模 CAGR 领先全球，数据主要来源于政府、传媒、服务、零售等行业。当前国内互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言，百度“文心”大模型训练特有数据主要包括万亿级的网页数据和搜索数据等；阿里“通义”大模型的训练数据主要来自阿里达摩院；腾讯“混元”大模型特有的训练数据主要来自微信公众号，微信搜索等优质数据。同时，未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源。

如何面向AI大模型投喂——融合文本、图像、视频、音频等多模态的高质量数据集，无疑值得企业家、创业者、营销人高度重视。作为热点数智化传播系统创立者，汤祚飞进一步分析强调说，投喂数据的真实性与原创性、内容的创新性和专业性、热点关联性与数智性、媒体渠道的权威性和影响力、数据被引用与转载的频次等，都是需关注和优化的维度。

未来，数据服务产业将加速发展，助力中文数据集质量提升，品牌企业有必要引入专业数据服务机构，同时大大增加将人类想象变为现实的可能性。随着以ChatGPT、文心一言等为代表的大模型和AIGC的涌现，人工智能的商业化路径将进一步加速，使其对企业品牌营销以及普罗大众的日常工作、消费、娱乐等产生不可低估的影响。