录音笔是否会成为过去式?阿里云“听悟”与科大讯飞“听见”正面刚(文末有彩蛋)
【大河财立方 记者 杨霄 文图 实习生 郎润乾】 阿里云推出的AI新品“通义听悟”,是不是另一个版本“讯飞听见”?
6月1日,在广州举行的“2023年阿里云峰会·粤港澳大湾区”活动上,阿里云正式发布了工作学习AI助手通义听悟。它是基于通义千问大模型拥有对语言更强的理解力,在开会、上课、访谈、培训、直播、看视频、听播客等音视频内容场景中,能记、能翻、能存、能划重点。
这意味着,在国内智能语音转写市场上,阿里云正试图凭借新应用对科大讯飞既有优势领域发起正面攻击,用户竞争与价格战已经打响。而AI软件是否会将智能录音笔逼到出局?还有待考量。
AI产品战在音视频转写领域打响
“听悟”能做线上会议“替身”
近两年国内科技界AI技术开发热,在音视频转写领域率先结果。
当日活动现场,阿里云公布通义大模型进展,聚焦音视频内容的AI新品“通义听悟”正式上线。其称,这是国内首个开放公测的大模型应用产品。
与当前市场销售主流的智能录音笔不同,阿里云“听悟”作为一款独立应用,不需要专业的录音笔设备硬件做支撑,它可依托各类智能终端工作。换句话说,用户手边有什么智能设备均可,如有麦克风收声硬件支持的手机、平板、PC等。
不过,阿里云新推出的“听悟”显然不只达到这个层级,它的核心功夫在于接入了通义千问大模型的理解与摘要能力,从而使它成为用户工作学习中的得力AI助手,帮助用户随时随地高效完成对音视频内容的转写、检索、摘要和整理。
例如,一名学生一天上8节课,每天放学后他要用智能录音笔转写老师讲述内容,再耗费数小时对翻录文字纠错,找到对应课堂重点内容,然后才梳理为课堂“笔记”。但“听悟”不只是听清语言内容,而是能听明白语音后产生自我所“悟”。它超然于录音笔的价值,是为音视频划分章节并形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。更甚者,听悟还可能成为线上会议的参会“替身”,用户在静音情况下,入会AI可代其为全场会议记录、整理要点,转写结果可下载为字幕文件,方便用户在后期使用。
“换一种方式,让音视频可以被轻松阅读、整理和分享。”阿里云CTO周靖人介绍,听悟瞄准具有高知识附加值的音视频内容场景,比如开会、上课、访谈、培训、面试、直播、看视频、听播客等,能通过大模型等最新AI技术快速提炼和沉淀知识。同时,大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能,近期也将上线。
另据了解,听悟除个人版本外,还有企业应用。此前,听悟企业版已在阿里集团内部被广泛使用,帮助减少了大量会议记录和整理的工作,受到职场工作者好评。同时,听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的“钉闪记”背后便集成了听悟。未来听悟还将在夸克App、阿里云盘等端口提供服务。
录音笔不会重蹈BP机覆辙
但AI技术之战焦点是大模型
阿里云推出“听悟”,瞄准了科大讯飞在国内智能语音转写市场的核心领地。
艾瑞咨询发布的数据显示,国内智能语音市场经历了传奇版增长的3年,从2019年市场消费规模约77亿元,至去年增至159亿元,并有望在今年增至215亿元。该行业领域的核心竞争主体大抵有三类:以科大讯飞、搜狗为代表的专业智能语音企业,以阿里云、腾讯云为代表的云服务厂商,以网易为代表的专业转写或翻译厂商等。科大讯飞无疑是当前市场最大的利益方,多年前其凭一招“智能录音笔用户享终身免费翻录服务”,收割了记者、分析师、律师、HR、学生等大量市场需求。今天,科大讯飞在智能录音笔领域的地位无人可及。
不过,阿里云推出“听悟”的目的,绝不是打败智能录音笔,而是与科大讯飞的星火大模型做根本性较量。其声称,听悟是国内首个开放公测的大模型应用产品。
什么是AI大模型?
事实上,国内科技圈对此仍缺少统一的标准定义,多对其作概括与描述。它是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。AI大模型需占用大量的计算资源、存储空间、时间和电力等资源来保证它的训练和部署。而使用AI大模型,则需要数据收集、设计模型、模型训练和测试,以及部署应用等。因而,AI大模型的竞争是算力、人才和资源的综合竞赛。
非科技圈人士,多对上述内容感觉生硬且烧脑。但任一科技公司创造AI技术的核心方向即是模仿人类,由此理解AI大模型的概念最为直观。
今年,国内科技界在大模型领域的竞争堪称急速沸腾。据不完全统计,2月复旦大学发布MOSS;3月清华大学发布ChatGLM-6B、百度发布文心一言;4月阿里云发布通义千问、知乎发布知海图AI;5月,科大讯飞发布星火、腾讯发布混元、360发布360GPT。此外,还有传闻中京东研发的犀利、华为研发的盘古NLP模型。5月31日,百度创始人李彦宏宣布启动“文心杯”创业大赛,设立规模10亿元投资基金支持生成式AI领域初创企业。
由此来看,阿里云在4月官宣的推出大语言模型“通义千问”,今日推出“听悟”,相当于它先造好树干,后生成树杈。未来,它在“通义千问”树干上会培育树杈B、树杈C,至树杈N。不过,阿里云推出AI产品“听悟”切入国内智能语音转写市场,是其早有该领域技术积累。
5年前,消费者所见最直观的产品是智能音箱,如天猫精灵等,只不过相比当年技术系统完成了根本性迭代。而这,或相当于手机从模拟机变成了智能机。但另需看到,“听悟”是在手机、平板等智能终端使用,其硬件条件决定了它无法击败中高档录音笔的专业收声质量。所以,录音笔或不会重蹈BP机的覆辙,但也会极大挤压其用户总量。
如上种种,足见各家科技公司在AI大模型领域的研发较量火热。观望后期,各家企业在AI大模型生成的应用产品必将面临市场化,这无疑是一轮新的竞争热点。
【文末彩蛋】阿里云“通义听悟”正式公测,联合大河财立方送100份20小时免费转写福利↓↓↓↓
责编:史健 | 审校:李金雨 | 审核:李震 | 监制:万军伟