汤祚飞：大模型时代的企业应面向AI投喂高质量多模态的数据集

作者：洞悉数字科技发布时间：2024-05-13

2023年以来，以ChatGPT、文心一言为代表的AI大模型与“生成式人工智能（AIGC）”成为全球科技热点，作为一种新型的内容生产和传播方式，AIGC带来新一轮的生产、消费革命，并率先在媒体、营销、电商、游戏、影视、虚拟人等数字化程度高、内容需求量大的行业中发生。

AIGC把数据要素提到时代核心资源的位置，在一定程度上加快了整个社会的数字化转型进程，而AI 大模型则需要高质量、大规模、多样性的数据集。对此，知名品牌数智化专家、热点数智化传播系统创立者汤祚飞认为，AI 大模型给企业营销带来划时代的机遇和挑战。企业应面向AI大模型主动投喂高质量多模态的数据集，构建大模型对企业产品与品牌的数据认知，去影响AI大模型的生成结果，引导其对企业品牌营销产生积极意义。

汤祚飞认为：当AI大模型逐步代替人的思考过程，品牌的目标消费者，会通过大模型，去了解品牌和产品，了解企业的创始人，去对比不同的商品和品牌。这有点类似于搜索引擎和比价软件的作用，然而AI大模型直接呈现对比结果的生成式内容，更加快捷与智能，甚至可能代替消费者进行比较和综合判断的过程。这样的机遇和挑战，将要求企业构建面向AI大模型的品牌营销体系。

大语言模型的数据集一般来自于网络上的大量结构化与非结构化数据，例如百科、书刊、新闻、会议论坛、网页等。这些数据被收集、清洗、标注后，用于训练大型的神经网络模型。目前，海外主要大语言模型数据集主要包含六类：维基百科、书籍、期刊、Reddit 链接、Common Crawl 和其他数据集。

国内各行业数据资源丰富，2021-2026 年数据量规模 CAGR 领先全球，数据主要来源于政府、传媒、服务、零售等行业。当前国内互联网头部企业主要基于公开数据及自身特有数据差异化训练大模型。具体而言，百度“文心”大模型训练特有数据主要包括万亿级的网页数据和搜索数据等；阿里“通义”大模型的训练数据主要来自阿里达摩院；腾讯“混元”大模型特有的训练数据主要来自微信公众号，微信搜索等优质数据。同时，未来专业及垂直内容平台有望成为国内优质中文数据集的重要来源。

如何面向AI大模型投喂——融合文本、图像、视频、音频等多模态的高质量数据集，无疑值得企业家、创业者、营销人高度重视。作为热点数智化传播系统创立者，汤祚飞进一步分析强调说，投喂数据的真实性与原创性、内容的创新性和专业性、热点关联性与数智性、媒体渠道的权威性和影响力、数据被引用与转载的频次等，都是需关注和优化的维度。

未来，数据服务产业将加速发展，助力中文数据集质量提升，品牌企业有必要引入专业数据服务机构，同时大大增加将人类想象变为现实的可能性。随着以ChatGPT、文心一言等为代表的大模型和AIGC的涌现，人工智能的商业化路径将进一步加速，使其对企业品牌营销以及普罗大众的日常工作、消费、娱乐等产生不可低估的影响。

汤祚飞：大模型时代的企业应面向AI投喂高质量多模态的数据集

推荐体验

相关资讯

高质量数据集构建与模型评测，我们是这样做的 | AICon

数据驱动AI大模型时代，云测数据引领高质量数据服务

海天瑞声：大模型高质量数据需要高质量人工支持

澳鹏与Reka AI强强联合，构建高质量的多模态LLM应用

超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能

近期资讯

如何轻松更改微信提示音，提升聊天个性化体验的技巧分享

如何轻松将图片背景更换为白色，提升视觉效果与专业感

如何将打印机正确安装到电脑并解决常见问题

如何通过电脑有效远程发送信息与文件的实用指南

如何根据个人需求优化显示器设置提升视觉体验与舒适度

如何在社交媒体上发表有趣吸引人的说说分享生活点滴

如何轻松接好电话线：详细步骤与注意事项解析

如何轻松调整华为手机时间，确保准确无误的使用体验

如何在手机上轻松输入乘号：多种方法与技巧解析

如何在社交平台上有效管理和删除留言的技巧与思考

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响