当前位置:首页|资讯|AIGC|法律|人工智能

AIGC观察丨出版业如何应对AIGC带来的行业颠覆?

作者:互联网法律评论发布时间:2023-08-03

原标题:AIGC观察丨出版业如何应对AIGC带来的行业颠覆?

【编者按】外国新闻媒体Insider与相关专家共同编制了一份“最有可能被人工智能取代的工作清单”,排名前三的分别是技术工作、媒体工作、法律行业职位。

AIGC无疑将为出版业带来根本性的变革,如何应对?《互联网法律评论》特约专家张欣博士认为,对于从业者而言,编辑人员应该提升职业技能,将AIGC作为工作使用,对于出版机构应该借鉴汤森路透和律商联讯的做法,将资金投入到高质量数据上。

ChatGPT到底如何颠覆出版行业?《互联网法律评论》获张欣博士授权,转载此文。此文根据2023年7月18日她在法律出版社编辑培训活动中的主旨演讲整理形成,演讲主题为“人工智能与未来法治——兼谈ChatGPT对法律出版行业的影响”。原载于《中国法律评论》微信公众号。

AIGC的技术认知

全球人工智能生成内容(以下称AIGC)产业链展现了各大公司对大语言模型的前瞻布局。在这场科技赛道中,通用预训练大模型已逐渐成为各国竞争焦点。

纵观AIGC技术的产生,我们可以关注两个核心发展:

(一)信息生产模式的进化

从专家生成内容(PGC)到用户生成内容(UGC),再到AI辅助生成,最终到AIGC,AI已经成为主要的内容生产者。推荐算法曾经得到广泛关注。这种算法之所以强大,是因为它大大降低了信息分发的成本。但AIGC不仅关注信息分发,还进一步降低了知识生产的边际成本,引发了版权和专利等法律议题。

(二)人工智能产业链条的变革

随着生成式人工智能的发展,一个全新产业链逐步兴起。这个产业链条不仅为现有的内容生产与分发业务带来颠覆性变革,还为广大行业与领域开启了无数新的商业机会。基于模型即服务(Model as Service)的模式为AIGC行业的发展带来了一个独特的竞争优势。传统的软件或服务模式需要重复开发和维护,而模型即服务的模式允许开发者构建、训练并共享他们的模型,用户可以按需使用,无需自行开发和维护。这大大加速了AIGC技术的广泛应用和普及,降低了入门门槛,同时也为投资人带来了巨大的回报潜力。

AIGC的法律风险

(一)数据层风险

1. 数据质量风险

首先,应注意数据标注的质量问题。为了构建ChatGPT,需对其使用的语料库进行数据预处理,这可能涉及到人工标注。尽管在此过程中数据会经过多次验证,但仍可能存在因标注而产生的偏见或歧视。为此,《生成式人工智能服务管理暂行办法》明确提出了对标注规则的要求,并规定了对标注过程的评估和整体风险管理。

其次,关于预训练语料库的多样性问题,ChatGPT的训练数据显示出明显的语言偏向。其中,英语占据了主导地位,高达96%,而其他语言仅占4%,并且中文的比例不足1%。这明确指向了我们对中文大模型训练的迫切需求。

最后,我们要讨论的是数据的时效性及内容生成的准确性。大模型在进行再训练时可能会面临所谓的“灾难性遗忘”问题,这是技术发展中的一个显著障碍。尽管有技术手段试图缓解这一问题,但它依然是一个重大挑战。ChatGPT曾尝试与New bing进行结合,利用网络搜索来解决此问题,但从实际效果看,这种结合并未完全实现其预期目标,仍在内容的可靠性和时效性上存在疑虑。

2. 数据安全风险

此外还需要关注大模型的脆弱性问题。相较于中小模型,参数众多的大模型可能更易受到攻击。有研究指出,通过特定提示语可以对其进行攻击,甚至使用其预训练的语料库实施反向攻击。如果预训练的模型规模相当大,AI不仅记录所有的数据信息,还可能在爬取公共网页内容时,组合生成一些潜在的敏感信息。在这种背景下,存在着ChatGPT模型可能被用于提取大模型中的个人敏感信息的风险。对于这一问题,当前尚未有彻底的技术应对策略。

其次,需要警惕交互使用过程中的敏感信息泄露。例如,近期三星公司遭遇的信息泄露事件就是一个警示。公司的技术团队在利用ChatGPT寻找并优化程序BUG时,相关数据已经在实时被用于大模型的自我迭代。这突显了在使用生成式AI技术过程中,敏感信息的获取和泄露是一个不容忽视的隐患。

最后,还需关注公开信息爬取可能带来的隐私侵权问题。在对大模型进行预训练时,包含个人信息的数据应进行兼容性测试,必要时应获得用户授权,但这在实际操作中常常存在难度。例如,美国某家科技公司曾爬取社交媒体上用户的照片,用于构建人脸识别数据库并训练相关系统,这引发了公开信息爬取过程中对个人隐私预期和权益的潜在侵犯问题。

(二)算法层风险

1.算法透明

当前的大型模型,尤其是深度神经网络,因其参数量庞大和复杂性高,导致算法的透明度降低和可解释性受限。而大部分现行的算法治理框架主要依赖于算法的可解释性或透明度来制定。因此,深度神经网络的这些特点对这些治理框架带来了巨大的挑战和冲击。

2.算法安全风险

尽管GPT-4在算法安全性上已取得了不少实质性的成果,但仍面临多项待克服的风险。根据李飞飞团队的研究,虽然这些基础模型展现出了显著的涌现性特征,但随之而来的风险也呈现出同样的涌现性,这可能导致一些意料之外的问题,并对基于风险的治理框架带来较大的挑战。

3.算法归责风险

面对生成式人工智能的治理,如何准确确定责任归属一直是一个挑战重重的问题。各国都面临如何建立一个合适的法律框架来明确定责的巨大考验。这些挑战主要集中在以下两个方面:

首先,责任主体的界定愈发模糊。随着生成式人工智能产业链条的演变,我们迎来了人人都是程序员的时代。在未来的模式中,那些在云端协同工作、生产出大型模型并拥有深远技术影响的团队或个体,可能与那些在特定领域部署模型的团队是不同的主体。实际上,后者可能只对模型做了微调,并不真正掌控技术的走向。因此,如果我们仅仅关注平台这一责任主体,可能会忽视了产业链中更为复杂的责任关系。

其次,面临非物质性损害的救济和责任确定问题。这不仅是生成式人工智能领域的难题,个人信息保护领域也同样面对这一挑战。在众多的个人信息保护案例中,由于缺乏具体、可量化的证据支持,当事人要求的赔偿额度常常非常低。未来,确定人工智能生成内容所导致的非物质性损害的具体金额也将遭遇同样的治理挑战。

(三)应用层风险

1.信息内容治理层面风险

以ChatGPT为代表的大型生成式语言模型通过对海量自然语言文本数据的学习,运用统计学和概率分布预测下一个单词或句子,从而实现流畅连贯、语法正确、具备逻辑的文本生成。这一技术机理虽能提升模型性能,但却在内容公平性、真实性和可靠性方面带来治理挑战。概率生成文本的方式存在难以控制内容质量的问题。基于网络文本语料库的训练可能嵌入算法偏见。人类反馈强化学习可能加剧虚假信息的生成与传播风险。模型的涌现性还可能产生意料之外的治理风险。

2.为不当行为和违法行为提供便利

ChatGPT拥有卓越的智能化训练数据和广泛的泛化能力,它不仅能够进行翻译、识别语法错误或撰写论文,更能编写程序。这使得ChatGPT有潜在的风险被用作网络犯罪的工具,例如编写暗网市场的脚本或为非法交易构建自动化平台。这种方式使犯罪行为更为隐蔽、高效、迅速,并具有明显的跨领域特性。

生成式人工智能如何颠覆出版行业

(一)生成式人工智能符合赋能出版行业

1. 知识聚合的效果

随着生成式人工智能对图书创作者的知识积累速度和广度的大幅推进,我们目睹了各行业知识整合的革命性演变。这无疑将对图书的选题、编辑、出版和流通的整个过程带来加速和根本性的变革。智能内容生成技术的崛起也意味着那些侧重知识整合的书籍需要进行相应的转型和优化,以确保与这些先进技术形成的独特价值提议保持一致,进而为读者呈现更优质的内容。

2. 读者画像

基于ChatGPT的模拟情境对话,我们可以深入挖掘和分析用户反馈的大数据,为数字出版行业在个性化营销、目标用户锚定、用户行为洞察、用户特质描述及付费机制设计等方面提供有力的策略支持。通过这种方式,有望推动数字出版走向更为定制、细分与智能的盈利模式。

3. 智能校编

ChatGPT通过其先进的交互式学习,优化了传统AI技术对固定数据集的依赖,使其生成的内容更接近人类编辑的效果。利用ChatGPT卓越的自然语言处理和内容生成技巧,编辑能迅速地浏览、检索和标记文档,自动完成大部分内容的规范调整。这具体包括:

A. 语法及拼写纠正:辅助编辑者找出文中的语法、拼写及标点使用错误;

B. 语义调整:确保文本内容的可读性;

C. 上下文查询:根据需求,在庞大的语料库中查找相关信息,增强文本的背景理解;

D. 自动文本创建:基于编辑的输入,为其生成相关文本,从而提高效率。

尤其在医学、法律等专业性强且对准确性要求高的领域,ChatGPT能辅助性地将其转化为易于理解的内容。

4. 选题策划&内容创作

生成式人工智能能够自主产出众多内容,这为出版行业开辟了更广阔的业务领域。它可以依据编辑的意图和目标受众,为其推荐相应的主题和话题,从而捕获读者的注意力;同时,根据编辑的期望和标准,为文本内容结构、文笔和语言风格等提供合适建议,进一步提升作品的品质和易读性;此外,还能协助编辑寻找相关的资料、数据和事实,助力其选题策划的工作。以法律出版为例,该技术能够帮助自动生成案件摘要、法律解读或其他与法律紧密关联的文件。

(二)生成式人工智能对出版行业的挑战

1. 编辑伦理风险

随着智能技术进入出版界,编辑不再是出版过程中的唯一决策者。智能化的选题、策划和审稿校对等功能渐成现实。这意味着编辑不再承担过去的繁重任务,但其传统的编辑素养和职责也面临着新的挑战,如机器逐渐取得的把关、表达和分发的权利。生成式AI以其经济性和效率优势,逐步接替部分传统编辑的职责,重新定义了传统编辑的工作模式和价值判断标准。这无疑对编辑专业人员提出了更高的技能和适应性要求。因此,随着出版行业的技术化进程,部分从业者可能面临薪资调整或就业压力。

2. 人工智能生成内容的精准性和可靠性挑战

基于Transformer结构的自回归语言模型,通过对上下文进行预测来生成文本。这意味着ChatGPT生成内容主要是基于其训练时学到的逻辑结构,是执行逻辑预测的结果。因此,尽管ChatGPT能够处理大量信息,但它生成的内容仍然存在精准性和可靠性挑战。

3.信息和知识获取渠道的转移(从信息生成、知识生成到智慧生成)

随着人工智能的发展,大型模型可以快速为用户提供简单法律问题的答案。这意味着部分读者可能不再需要购买基础类、案例类、法律法规汇编类书籍来获取这些基础知识。这些曾为法律图书出版机构带来稳定收入的书籍类型现在可能会受到市场冲击。在这种背景下,那些平庸的选题和重复的内容在市场竞争中难以为继,可能会被更有价值的内容所替代。

出版行业的应对与布局

(一)编辑自身技能的提升

使用AIGC工具挖掘选题、编写内容简介以及进行同类书籍分析,需要对提示词工程(Prompt Engineering)的基础概念、关键原则和实用技巧有深入了解。为了进一步加强这方面的技能,可以参考吴恩达(Andrew Ng)与OpenAI工程师Isa Fulford共同推出的课程——“面向开发者的ChatGPT提示词工程”进行自我学习和实践。

(二)法律出版行业的应对布局

在法律出版的未来趋势中,出版社部署的大型模型或许将成为新的增长引擎。这背后得益于出版社的资金注入和高质量数据。事实上,与法律服务相关的大模型在其他机构组织中已有所布局,例如,汤森路透和律商联讯。尽管法律出版领域目前还处于起步阶段,但这个方向值得我们持续关注。

作者:张欣

《互联网法律评论》特约专家

对外经济贸易大学法学院副教授、院长助理

对外经济贸易大学数字经济与法律创新研究中心执行主任

【免责声明】此文仅代表作者个人观点,与本平台无关。本平台对文中陈述、观点判断保持中立,不对所包含内容的准确性、完整性或可靠性提供任何明示或暗示的保证。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1