去年的“AI孙燕姿”活跃至今,最近生成式AI在音频方面又玩出了新花样,比如昆仑万维发布「天工Sky Music」,Open AI发布能用15秒克隆任何语音的Voice Engine,网易云面向专业音乐人内测「网易天音」,Stable Audio 2.0支持用户通过文本或音频生成3分钟的高质量音乐。
在全球风险投资的低潮期,生成式AI(GenAI)逆市而起,融资额增长了400%,但GenAI的商业化还处在探索阶段。越来越多的公司加入AI生成音频的浪潮,试图借此打通一条AI变现的新路径。
使用过生成式AI的人可能都知道,AI生成的内容不可控,甚至还有很多潜在的风险。2024年4月,全国首例“AI声音侵权案”一审宣判,被告方书面赔礼道歉,并赔偿原告各项损失25万元。为了提前规避风险,对AI生成的内容进行专业审核是非常必要的。
1. 作为一种可商业化的创作工具
以前,使用电子技术制作虚拟歌手有着广泛的市场,洛天依、初音未来及其歌曲经久不衰。通过深度学习和自然语言处理等技术,现在的AI可以生成具有更高真实感和相似度的声音。这种技术可以应用于各种领域,如语音合成、语音识别、语音克隆、音乐创作等。
AI生成音频的市场需求正在不断增加,商业化前景十分广阔。4月初,基于昆仑万维「天工3.0」超级大模型打造的「天工SkyMusic」开启免费邀测,人声“以假乱真”,能够生成80秒44100Hz采样率双声道立体声的高质量AI歌曲。网易AI音乐推出「网易天音」,主打AI作词、AI编曲和AI一键写歌,“录入灵感、AI生成出稿、手动调整、导出”即可创作一首歌曲。
2.生成有声读物,提供阅读辅助
对于儿童或者暂时没有阅读条件的人群(如视力障碍者、车辆驾驶员),“AI生成音频”可以提供个性化、定制的服务,通过将文本转换成语音、搭配自然而富有感情的声线的方式,让用户更快速地获取信息,从而提高阅读效率。此外,能为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。
例如,Age of Learning作为一家儿童教育公司,正在使用AI技术生成各种有声读物,并把AI生成声音和GPT-4结合起来,与学生进行实时、个性化的互动。
3.改善偏远地区的基础服务,触及全球社区
在一些发展相对滞后、非通用语种的地区,信息传播往往受到各种限制。通过AI生成音频的方式,偏远地区能快速同步最新资讯,促进信息的跨语言传播,提高信息传播的效率和准确性,协助改善公民基础服务。
打开内容审核平台https://cloud.baidu.com/solution/censoring,登录百度智能云账号后,别忘记先领取免费资源薅羊毛!!
1.创建应用
应用是调用API服务的基本操作单元,可以基于应用创建成功后获取的API Key及Secret Key,进行接口调用操作,及相关配置。
应用名称:必填项,用于标识您所创建的应用的名称,支持中英文、数字、下划线及中横线,此名称一经创建完毕,不可修改;
接口选择:必填项,每个应用可以勾选业务所需的所有AI服务的接口权限(仅可勾选具备免费试用权限的接口能力),应用权限可跨服务勾选,创建应用完毕,此应用即具备了所勾选服务的调用权限;
包名绑定:选填项,如果您需要使用OCR、AR及语音客户端SDK服务(iOS/Android),需要绑定包名信息,以便生成授权License,上图中勾选了「通用文字识别」权限后,即展现此项。注:人脸识别客户端SDK需要单独申请使用,无需在此配置;
应用描述:必填项,对此应用的业务场景进行描述。
填写完毕后,即可点击「立即创建」,完成应用的创建。点击左侧导航中的「应用列表」,可以进行应用查看:
创建完毕应用后,平台将会分配此应用的相关凭证,主要为AppID、API Key、Secret Key。调用API接口时,可以使用这些凭证,进行Access Token(用户身份验证和授权的凭证)的生成。
2.调用服务
调用AI服务相关的API接口有两种调用方式,两种不同的调用方式采用相同的接口URL。区别在于请求方式和鉴权方法不一样,请求参数和返回结果一致。
调用方式一 请求URL数据格式
向授权服务地址https://aip.baidubce.com/oauth/2.0/token
发送请求(推荐使用POST)。百度AI开放平台使用OAuth2.0授权调用开放API,调用API时必须在URL中带上Access_token参数。Access_token是用户的访问令牌,承载了用户的身份、权限等信息。
grant_type: 必须参数,固定为client_credentials
;
client_id: 必须参数,应用的API Key
;
client_secret: 必须参数,应用的Secret Key
;
获取Access_token有三种方式:通过代码的形式获取,使用网页调试工具获取,在线调试工具。
POST中参数按照API接口说明调用即可。
例如图像审核API,使用HTTPS POST发送:
调用方式二 请求头域内容
在请求的HTTP头域中包含以下信息,API认证机制authorization必须通过百度云的AK/SK生成:
host(必填)
x-bce-date (必填)
x-bce-request-id(选填)
authorization(必填)
content-type(必填)
content-length(选填)
作为示例,以下是一个标准的图像审核的请求头域内容:
语音、语义、声纹多重审核保障。使用领先的ASR(语音识别)引擎,将音频中的语音转写为文本,利用文本审核模型识别违规内容,并结合音频特征识别技术,准确识别低俗声音(呻吟、娇喘、ASMR)等违规内容。
采用同步方案,接口返回速度快,适合对响应时延要求高的场景。音频审核能力包含娇喘声检测和语音内容审核,语音内容审核是先通过语音识别将语音转换为文字,再通过文本审核,审核项目与文本审核一致。
采用异步方案,适合长音频文件批量审核的场景。音频审核能力包含娇喘声检测和语音内容审核,语音内容审核是先通过语音识别将语音转换为文字,再通过文本审核,审核项目与文本审核一致。
百度违禁词库:包含百度海量历史数据挖掘,提供对封禁词语的识别审核能力
文本色情:对文本中的色情行为描述、色情资源链接、低俗交友、污秽文爱等内容进行识别
恶意推广:对文本中带有售卖意向的软文广告,微信、QQ等个人联系方式等违规内容及变体进行识别
低俗辱骂:对文本中的侮辱谩骂、人身攻击、消极宣泄等内容进行识别
低质灌水:对网络社区常见的乱码、水帖、刷屏等无意义的灌水信息进行识别
隐私信息:对涉及个人身份的隐私信息进行识别,如身份证号、社保卡号、银行卡号等
广告法审核:对广告法中要求的不能出现的违规词进行检测
附录:常见术语