当前位置:首页|资讯|生成式AI|人工智能|艺术

生成式AI狂飙猛进背后,要求“训练数据真实”比想象中更难

作者:互联网法律评论发布时间:2023-05-05

原标题:生成式AI狂飙猛进背后,要求“训练数据真实”比想象中更难

生成式人工智能的“狂飙猛进”才刚刚开始,就已经逐渐在多个领域展现出了巨大的潜力和价值,如新闻写作、文案生成、艺术创作等。同时,生成式人工智能服务也面临着一些挑战和风险。为了规范生成式人工智能服务的发展,保护用户权益,维护网络安全和社会秩序,国家网信办发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》)。其中第七条提到生成式人工智能服务提供者需“保证数据的真实性、准确性、客观性、多样性”,引发外界关注。

生成式人工智能服务依赖于大量的数据进行训练和生成,而数据本身可能存在定义不明的情况。广西科技大学计算机学院副书记黄剑华表示,“不同行业对与内容的真实准确的定义是不完全相同的,例如新闻报道需要实事求是,而对于虚构写作来说则是虚拟的人物和事件,这就导致无法对真实性有一个确定的规范。”因此,如何界定数据的真实性、准确性、客观性是一个复杂而主观的问题,需要考虑多方面的因素和标准。

其次,大模型的迭代,对数据真实性、准确性的依赖程度并没有外界想象中大。据郑州大学人工智能工程应用实验室主任马竞介绍,生成式人工智能技术是一种基于数据驱动的技术,它通过学习大量的数据,来模拟数据中的分布和规律,从而生成新的数据。这种技术本身并不具有判断真实性、准确性、有效性的能力,也不依赖于这些标准来优化自身的性能。因此,要求生成式人工智能服务提供者保证其提供的服务内容真实、准确、有效,实际上对技术存在一定的误解。

事实上,生成式人工智能服务通常会运用到深度神经网络等模型进行训练和生成。这些模型具有强大的泛化能力和容错能力,可以从噪声数据中学习到有效的特征和规律,并在一定程度上纠正或避免数据中存在的问题。因此,在生成式人工智能的迭代过程中,数据真实性、准确性并不是决定因素。

另外,从更现实的角度考虑,数据的筛选和清洗是一个耗时耗力的过程,需要投入大量的人力、物力和财力。而且,由于数据的来源和类型繁多,不可能对每一条数据进行详细的核查和验证,也不可能消除所有的噪声和错误。如果对数据的筛选过于严格,无疑会造成巨大的成本,而且可能会损失一些有用或有趣的数据信息。这对于生成式人工智能服务的发展是不利的。

最后,数据标准越严格,能够用于训练的数据样本就越小。如果对数据的真实性、准确性、客观性、多样性等方面有过高的要求,那么能够满足条件的数据就会大幅减少,从而限制了模型的学习空间和能力。西交利物浦大学智能工程学院计算机副教授马洁明认为,如果需要确保训练数据的真实无误,将直接导致训练数据体量缩减,进而降低大模型学习能力,严重者将令我国失去发展生成式AI的先机。

同济大学软件学院院长、国际欧亚科学院院士赵生捷指出,虽然目前生成式人工智能引发了大众的关注和讨论,但人工智能仍处于早期发展阶段,需要一个开放、包容的技术环境和社会环境。“与其对信息真实与准确性用‘堵’的办法,不如用‘疏’的方式,引导广大使用者加强对人工智能这个工具的正确认知与使用,促进技术和应用之间形成更多良性互动机制。通过持续的应用反馈让技术螺旋上升、循序渐进。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1