9月23号,OpenAI发布了一个叫做Whisper的AI模型,向全球开发者开源。Whisper的英文意思就是说悄悄话,顾名思义就是一个语言AI模型。
我们之前跟大家介绍过OpenAI,就是由马斯克等人联合发起,后来被微软以10亿美元收购的人工智能企业。在整个人工智能产业里,OpenAI做的事情更偏基础架构一些,也更具有引领者的气质。它最具有代表性的是两个底层技术,每次推出都引发了商业化的浪潮:
一个是自然语言生成工具GPT-3,开发者们要么把GPT-3集成到自己的业务里,比如通信聊天软件MessageBird;要么创业公司直接拿来创业了,比如第三方AI对话服务团队Sapling.ai;
另一个是AI绘画工具DALL-E,开创了文字转绘画艺术创作的热潮。抓住这一波风口的初创公司StabilityAI正在冲击10亿美元的估值。
关于每一种AI工具的应用价值,有一个简单好用的判断标准,那就是看它是不是有潜力替代某种人类职业。比如GPT-3具有了处理人类自然语言的能力,替代对象就是人工客服;DALL-E具有快速生成艺术绘画的能力,替代对象是插画师。
OpenAI这一次推出的Whisper,替代职业就是转录员。根据职业咨询网站Zippia的统计,漂亮国有5.1万名转录员,88.7%的转录员是女性。虽然职业地位不像公司白领那么高,但人工成本也不低,一般的转录员时薪是15美元,而高级转录员的时薪达到了25美元。
由于每个行业都有专业词汇需要掌握,转录员还会有各自擅长的细分领域。比如,医学转录员的平均年薪为3.6万美元,法律行业转录员平均在2.6万美元。从事这个行业,不光要理解行业词汇,打字速度也要远远快于常人,需要很多的耐心和认真的训练才能成为合格的转录员。
如果有一种AI工具,同时拥有各行各业的专业知识,还能准确稳定地把采访、博客、对话等语音转录出来,我们就不需要专门培养那么多细分行业领域的转录员了。
从任务本身来看,音频转文字可没有你想象得那么简单。如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚至方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场合,背景会有噪音,也会偶尔有中断。
这就要求Whisper在GPT-3理解上下文的基础上,要有更强的抗干扰能力、更接近人类的声音识别能力。不过目前来看,OpenAI把这个工具面向所有开发者推出,已经具备商业化条件了。要知道,GPT-3在公布API接口后,9个月时间就出现300款应用。这一次的Whisper会不会再现当初的盛况,我们可以拭目以待了。
在人工智能领域,AI音频研究是文字、图片之后下一个备受关注的前沿,商业化前景很大。字节跳动的AI实验室有一个专门研究AI语音的团队叫火山语音,在今年9月公开了一系列AI音频技术的突破。
比如现在的有声小说APP需要配上音乐,火山语音的AI系统自己就可以理解小说这段情节的情绪,比如是喜悦还是悲伤,然后配上相应情感氛围的音乐。之前普遍的做法是让配乐师先把小说听一遍,然后在后期逐个配乐,和插画师一样,人力成本很高。
如今,越来越多的AI工具走出实验室,提供给开发者为产业和企业服务了。人工智能未来会朝着什么方向去演化呢?
我认为,现在的人工智能发展,就好比移动互联网刚刚起步的时候,整个行业都处在混沌之中,因为没有人能够讲得清楚未来是什么。
2000年我国移动推出了移动梦网,就像一个大超市,上面涌现了一批增值业务提供商。经历了一轮后,大批服务提供商陆续退出了市场。2008年的3G网络时代,百度、腾讯、360都推出了手机浏览器来抢占移动互联网入口,但那时候依然还没有大规模的、成熟的商业应用。
2012年以后,触摸屏的智能手机开始大规模替代按键手机,硬件基础开始定型,苹果和安卓瓜分了移动APP平台,越来越丰富的音乐、阅读、打车、游戏等APP就开始成长起来了,上面提供的移动支付、网约车、外卖配送等等服务,都是为我们生活真正带来改变的应用。
现在AI工具好比移动互联网发展的初期,很多都是有一定门槛的开发工具,而且面向的领域相对单一,比如AI转录文字、AI音频等等。类似的,移动互联网最早就只有短信、彩信、手机上网WAP)和小游戏,谁能预见到后来的精彩呢。
未来会有越来越多的应用开始使用人工智能,甚至催生新的商业模式,应用也会越来越丰富,当应用数量足够大的时候就容易平台化,或许会催生出不亚于当年移动互联网的繁荣。我相信,这一波科技的坦克正在逐渐完善,未来就看谁能打出闪电战来。就像基于移动的应用企业字节跳动可以逐渐超越互联网巨头一样,未来的基于人工智能的应用企业也一定会超越字节这样的今天的巨头,成就下一个时代的辉煌。