首例“AI声音侵权案”宣判！聊聊怎么调用API接入百度内容审核平台

作者：13776615089发布时间：2024-05-06

去年的“AI孙燕姿”活跃至今，最近生成式AI在音频方面又玩出了新花样，比如昆仑万维发布「天工Sky Music」，Open AI发布能用15秒克隆任何语音的Voice Engine，网易云面向专业音乐人内测「网易天音」，Stable Audio 2.0支持用户通过文本或音频生成3分钟的高质量音乐。

在全球风险投资的低潮期，生成式AI(GenAI)逆市而起，融资额增长了400%，但GenAI的商业化还处在探索阶段。越来越多的公司加入AI生成音频的浪潮，试图借此打通一条AI变现的新路径。

使用过生成式AI的人可能都知道，AI生成的内容不可控，甚至还有很多潜在的风险。2024年4月，全国首例“AI声音侵权案”一审宣判，被告方书面赔礼道歉，并赔偿原告各项损失25万元。为了提前规避风险，对AI生成的内容进行专业审核是非常必要的。

一、刨根究底：明知不可控，为什么还要用AI生成声音？

1. 作为一种可商业化的创作工具

以前，使用电子技术制作虚拟歌手有着广泛的市场，洛天依、初音未来及其歌曲经久不衰。通过深度学习和自然语言处理等技术，现在的AI可以生成具有更高真实感和相似度的声音。这种技术可以应用于各种领域，如语音合成、语音识别、语音克隆、音乐创作等。

AI生成音频的市场需求正在不断增加，商业化前景十分广阔。4月初，基于昆仑万维「天工3.0」超级大模型打造的「天工SkyMusic」开启免费邀测，人声“以假乱真”，能够生成80秒44100Hz采样率双声道立体声的高质量AI歌曲。网易AI音乐推出「网易天音」，主打AI作词、AI编曲和AI一键写歌，“录入灵感、AI生成出稿、手动调整、导出”即可创作一首歌曲。

2.生成有声读物，提供阅读辅助

对于儿童或者暂时没有阅读条件的人群（如视力障碍者、车辆驾驶员），“AI生成音频”可以提供个性化、定制的服务，通过将文本转换成语音、搭配自然而富有感情的声线的方式，让用户更快速地获取信息，从而提高阅读效率。此外，能为语言能力受损的患者提供治疗应用程序，或为有学习需求的患者提供教育增强功能。

例如，Age of Learning作为一家儿童教育公司，正在使用AI技术生成各种有声读物，并把AI生成声音和GPT-4结合起来，与学生进行实时、个性化的互动。

3.改善偏远地区的基础服务，触及全球社区

在一些发展相对滞后、非通用语种的地区，信息传播往往受到各种限制。通过AI生成音频的方式，偏远地区能快速同步最新资讯，促进信息的跨语言传播，提高信息传播的效率和准确性，协助改善公民基础服务。

二、解决方案：调用API接入百度内容审核平台

打开内容审核平台https://cloud.baidu.com/solution/censoring，登录百度智能云账号后，别忘记先领取免费资源薅羊毛！！

1.创建应用

应用是调用API服务的基本操作单元，可以基于应用创建成功后获取的API Key及Secret Key，进行接口调用操作，及相关配置。

应用名称：必填项，用于标识您所创建的应用的名称，支持中英文、数字、下划线及中横线，此名称一经创建完毕，不可修改；

接口选择：必填项，每个应用可以勾选业务所需的所有AI服务的接口权限（仅可勾选具备免费试用权限的接口能力），应用权限可跨服务勾选，创建应用完毕，此应用即具备了所勾选服务的调用权限；

包名绑定：选填项，如果您需要使用OCR、AR及语音客户端SDK服务（iOS/Android），需要绑定包名信息，以便生成授权License，上图中勾选了「通用文字识别」权限后，即展现此项。注：人脸识别客户端SDK需要单独申请使用，无需在此配置；

应用描述：必填项，对此应用的业务场景进行描述。

填写完毕后，即可点击「立即创建」，完成应用的创建。点击左侧导航中的「应用列表」，可以进行应用查看：

创建完毕应用后，平台将会分配此应用的相关凭证，主要为AppID、API Key、Secret Key。调用API接口时，可以使用这些凭证，进行Access Token（用户身份验证和授权的凭证）的生成。

2.调用服务

调用AI服务相关的API接口有两种调用方式，两种不同的调用方式采用相同的接口URL。区别在于请求方式和鉴权方法不一样，请求参数和返回结果一致。

调用方式一请求URL数据格式

向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求（推荐使用POST）。百度AI开放平台使用OAuth2.0授权调用开放API，调用API时必须在URL中带上Access_token参数。Access_token是用户的访问令牌，承载了用户的身份、权限等信息。

grant_type： 必须参数，固定为client_credentials；

client_id： 必须参数，应用的API Key；

client_secret： 必须参数，应用的Secret Key；

获取Access_token有三种方式：通过代码的形式获取，使用网页调试工具获取，在线调试工具。

POST中参数按照API接口说明调用即可。

例如图像审核API，使用HTTPS POST发送：

调用方式二请求头域内容

在请求的HTTP头域中包含以下信息，API认证机制authorization必须通过百度云的AK/SK生成：

host（必填）
x-bce-date （必填）
x-bce-request-id（选填）
authorization（必填）
content-type（必填）
content-length（选填）

作为示例，以下是一个标准的图像审核的请求头域内容:

三、音频审核技术原理

语音、语义、声纹多重审核保障。使用领先的ASR（语音识别）引擎，将音频中的语音转写为文本，利用文本审核模型识别违规内容，并结合音频特征识别技术，准确识别低俗声音（呻吟、娇喘、ASMR）等违规内容。

1.短音频同步审核

采用同步方案，接口返回速度快，适合对响应时延要求高的场景。音频审核能力包含娇喘声检测和语音内容审核，语音内容审核是先通过语音识别将语音转换为文字，再通过文本审核，审核项目与文本审核一致。

2.音频文件异步审核

采用异步方案，适合长音频文件批量审核的场景。音频审核能力包含娇喘声检测和语音内容审核，语音内容审核是先通过语音识别将语音转换为文字，再通过文本审核，审核项目与文本审核一致。

3.文本审核

百度违禁词库：包含百度海量历史数据挖掘，提供对封禁词语的识别审核能力
文本色情：对文本中的色情行为描述、色情资源链接、低俗交友、污秽文爱等内容进行识别
恶意推广：对文本中带有售卖意向的软文广告，微信、QQ等个人联系方式等违规内容及变体进行识别
低俗辱骂：对文本中的侮辱谩骂、人身攻击、消极宣泄等内容进行识别
低质灌水：对网络社区常见的乱码、水帖、刷屏等无意义的灌水信息进行识别
隐私信息：对涉及个人身份的隐私信息进行识别，如身份证号、社保卡号、银行卡号等
广告法审核：对广告法中要求的不能出现的违规词进行检测

附录：常见术语

首例“AI声音侵权案”宣判！聊聊怎么调用API接入百度内容审核平台

一、刨根究底：明知不可控，为什么还要用AI生成声音？

二、解决方案：调用API接入百度内容审核平台

三、音频审核技术原理

1.短音频同步审核

2.音频文件异步审核

3.文本审核

推荐体验

相关资讯

全球资讯 | OpenAI完成103亿美元融资；杭州判决首例涉虚拟数字人侵权案

互联网法院开庭审理全国首例涉AI绘画大模型训练著作权侵权案

AI绘画侵权国内第一案宣判：罚了500！

midjourney api怎么收费，一键接入midjourney api调用

GPT 商店正式上线；谷歌 AI 芯片侵权案或赔偿 16.7 亿美元

近期资讯

如果再有机会，我一定做这样的产品经理

AI导购爱“答非所问”，淘天京东抖音为啥还抢着做？

产品体验报告 | 线上线下融合体之砂之船奥莱线上商城

80万车主数据遭泄露，大众软件团队又拉垮了

金融仓储数字化解决方案分享

区块链订单撮合引擎的工作原理

数字生物标志物：重新定义呼吸系统护理

小红书来了一位女将

如何让消费者重回商超？还是算了吧！

自研问卷调研系统如何初步建立？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响