出品 | 搜狐科技
作者 | 梁昌均
继通义千问之后,阿里云再次发布新的大语言模型产品通义听悟,自6月1日起正式公测,成为国内首个向公众开放公测的大模型应用产品。公测期间,用户可领取100小时以上的听悟免费转写时长。
通义听悟是一款聚焦在音视频领域的产品,能够帮助用户高效完成对音视频内容的转写、翻译、检索、摘要和整理,可以用大模型自动做笔记、整理访谈、提取PPT等功能,适用于开会、上课、访谈、培训、面试、直播、看视频、听播客等场景。
阿里云智能CTO周靖人表示,通义听悟定位于工作学习AI助手,它接入了通义千问大模型的理解与摘要能力,集成了阿里最先进的语音和语言技术。在开放公测后,搜狐科技对这款产品进行了实际体验。
实时记录易受环境影响,可自动生成章节速览等
目前,听悟主要是在网页端使用,整个界面分为两大模块,实时记录音频和上传音视频。在实时记录方面,和市面上多数在线转写产品类似,可以对语音进行实时转写,转写过程中可以修改识别结果,标记内容要点和代办事项等。转写结束后,选择发言人数并确认,即可生成记录。当播放音频时,可以点击文字跳转播放。
听悟区别于其他产品的核心功能在于能够自动生成关键词、摘要、章节速览,点击章节速览即可跳转至对应片段进行回顾。它也可以区分不同的发言人,并进行总结。此外,打开通义听悟实验室,还可以查看待办事项,也支持双语对照和纯译文显示,分享功能尚未对外开放。
搜狐科技在与周靖人等高管多人对话的现场体验了实时纪录这一功能,转写速度相较讯飞听见等同类型产品有所提升。从整体准确性来看,由于现场环境和发言人有时声音过小等因素,少部分转写记录并不准确,当然这些错误可以在实时记录过程中进行修改。
在确定结束录音后,选择多人讨论,听悟就会在原文上方自动生成关键词、摘要、章节速览和发言人总结,并可以对这些内容进行反馈,重点内容还可以标记,并一建提取到右边的文档编辑栏中。
结合现场谈论话题,听悟自动生成的内容基本吻合,但也有一些小瑕疵,比如关键词抓取过泛,还出现了“天大模型”的错误表述,全文摘要中也有些病句和理解不准确的地方,比如“名为大模型”其实就是通义听悟。
在发言总结中,听悟自动生成了三位发言人的总结(发言人2和3是提问),对占据主要篇幅的发言人1的观点进行了总结,但由于部分转写内容的不准确性,导致总结中也出现错别字和有误内容,比如“大源模型”应该是大语言模型。
不过,听悟也给出免责声明:“智能内容由AI模型生成,我们不对内容准确性和完整性做任何保证,亦不代表我们的观点或态度。”
音视频转写速度较快,英文提炼能力有待加强
考虑到实时记录存在外部环境因素,从而影响转写准确率,以及后续AI自动生成的内容,同时为测试翻译能力,搜狐科技又上传了一段马斯克近日访谈的部分英文音频进行评测。这部分访谈主要是马斯克谈论OpenAI从开源走向闭源,和微软有关的控制权等问题,并就AI时代应该如何选择职业给出建议。
在上传录音前,听悟可以提前选择转写语言、翻译和区分发言人情况;目前转写语言支持中文、英文、粤语和中英文自由说,翻译则仅能支持中英互译,语种和翻译选择比较受限。在转写速度上,这段近8分钟的音频转写完成约15秒(讯飞听见约为25秒)。
从内容来看,听悟可以支持纯译文显示和双语显示,同时可以生成关键词和章节速览,但没有全文摘要和发言总结的功能。
不过,关键词提炼不太准确,像OpenAI、微软等这样的关键词并未出现,同时章节速览过于简单,不太全面,与原文内容也不太相关。在多次给出反馈后,前述问题仍未有明显改善。这在一定程度上或显示出,听悟对英文语料的理解和提炼总结的能力还比较弱。
此外,通义听悟也可以选择导入阿里云盘的音视频文件并上传,初次使用绑定阿里云账号即可。搜狐科技同样以马斯克访谈视频,通过阿里云网盘进行了体验。
实测显示,两分钟的视频约30秒就能完成转写,对于想要获取视频文字的人来说,不用再通过去观看原视频而进行内容记录,从而节省时间、提高效率。对于视频生成的内容,它也可以生成关键词和章节概览,或由于视频过短,它只给出一个章节速览,但还算准确。
同时听悟也可以实现视频文字互相对应,在点击视频时会跳转到对应的文字部分,而在点击文字时也会跳转到对应视频部分,文字部分也具备重点标记、一键提取、双语显示等功能。此外,当在阿里云盘在线播放视频时,视频则会自动出现字幕,但目前音视频文件导入阿里云盘的功能还在开发中。
周靖人介绍称,通义听悟一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能近期也将上线。此外,听悟还在内测Chrome插件,借此可以实现具备无字幕视频双语悬浮字幕条,转写结果也可直接下载为字幕文件,插件功能不久后也将开放。