生成式AI狂飙猛进背后，要求“训练数据真实”比想象中更难

作者：互联网法律评论发布时间：2023-05-05

生成式人工智能的“狂飙猛进”才刚刚开始，就已经逐渐在多个领域展现出了巨大的潜力和价值，如新闻写作、文案生成、艺术创作等。同时，生成式人工智能服务也面临着一些挑战和风险。为了规范生成式人工智能服务的发展，保护用户权益，维护网络安全和社会秩序，国家网信办发布了《生成式人工智能服务管理办法（征求意见稿）》（以下简称《征求意见稿》）。其中第七条提到生成式人工智能服务提供者需“保证数据的真实性、准确性、客观性、多样性”，引发外界关注。

生成式人工智能服务依赖于大量的数据进行训练和生成，而数据本身可能存在定义不明的情况。广西科技大学计算机学院副书记黄剑华表示，“不同行业对与内容的真实准确的定义是不完全相同的，例如新闻报道需要实事求是，而对于虚构写作来说则是虚拟的人物和事件，这就导致无法对真实性有一个确定的规范。”因此，如何界定数据的真实性、准确性、客观性是一个复杂而主观的问题，需要考虑多方面的因素和标准。

其次，大模型的迭代，对数据真实性、准确性的依赖程度并没有外界想象中大。据郑州大学人工智能工程应用实验室主任马竞介绍，生成式人工智能技术是一种基于数据驱动的技术，它通过学习大量的数据，来模拟数据中的分布和规律，从而生成新的数据。这种技术本身并不具有判断真实性、准确性、有效性的能力，也不依赖于这些标准来优化自身的性能。因此，要求生成式人工智能服务提供者保证其提供的服务内容真实、准确、有效，实际上对技术存在一定的误解。

事实上，生成式人工智能服务通常会运用到深度神经网络等模型进行训练和生成。这些模型具有强大的泛化能力和容错能力，可以从噪声数据中学习到有效的特征和规律，并在一定程度上纠正或避免数据中存在的问题。因此，在生成式人工智能的迭代过程中，数据真实性、准确性并不是决定因素。

另外，从更现实的角度考虑，数据的筛选和清洗是一个耗时耗力的过程，需要投入大量的人力、物力和财力。而且，由于数据的来源和类型繁多，不可能对每一条数据进行详细的核查和验证，也不可能消除所有的噪声和错误。如果对数据的筛选过于严格，无疑会造成巨大的成本，而且可能会损失一些有用或有趣的数据信息。这对于生成式人工智能服务的发展是不利的。

最后，数据标准越严格，能够用于训练的数据样本就越小。如果对数据的真实性、准确性、客观性、多样性等方面有过高的要求，那么能够满足条件的数据就会大幅减少，从而限制了模型的学习空间和能力。西交利物浦大学智能工程学院计算机副教授马洁明认为，如果需要确保训练数据的真实无误，将直接导致训练数据体量缩减，进而降低大模型学习能力，严重者将令我国失去发展生成式AI的先机。

同济大学软件学院院长、国际欧亚科学院院士赵生捷指出，虽然目前生成式人工智能引发了大众的关注和讨论，但人工智能仍处于早期发展阶段，需要一个开放、包容的技术环境和社会环境。“与其对信息真实与准确性用‘堵’的办法，不如用‘疏’的方式，引导广大使用者加强对人工智能这个工具的正确认知与使用，促进技术和应用之间形成更多良性互动机制。通过持续的应用反馈让技术螺旋上升、循序渐进。”

相关资讯

比真实数据还有效？训练AI，硅谷早已用上了合成临床数据

NFT、Web3.0后，硅谷最近抢起了生成式AI。

生成式AI

动脉网 2023-04-20

生成式AI狂飙猛进背后，要求“训练数据真实”比想象中更难

推荐体验

相关资讯

比真实数据还有效？训练AI，硅谷早已用上了合成临床数据

生成式AI热潮掀起“淘数据热”，背后风险有多大？

欧盟要求AI图片注明生成来源，维护信息真实性！

人工智能狂飙猛进伴随风险挑战

ue4好学么，是不是比想象中容易？

近期资讯

海关总署等部门：到2035年基本建成现代化口岸

华为Mate70接受预订？多家北京门店回应：未接到预定通知，或将11月底发布，预定也是盲定，不知配置、颜色

紧握AI时代机遇索尔思光电在手订单充足

四边等窄直屏看齐iPhone！OPPO Find X8正面照曝光

小米三折叠屏手机专利曝光：华为同款Z字形方案 2022年就布局

曝三星A16软件更新将长达六年入门机通常是两年

地球是一个巨大的永动机吗？46亿年自转从未停下，动力到底是啥？

Kimi 帮你看更大的世界

为什么是北京

上京东买苹果新品京东保联合保险公司推出“价保11.11”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响