6月1日,阿里云峰会·粤港澳大湾区分会在广州隆重举行,AI大模型仍是峰会重要话题。继发布“通义千问”大模型之后,阿里云在本场峰会上又秀出了最新成果:“通义听悟”AI大模型正式上线,主要提供音视频内容转写、检索、摘要整理等服务,聚焦音视频内容赛道。
据悉,“通义听悟”是国内首款开放公测的大模型应用产品,能充当各行业从业者的AI助手。阿里云CTO周靖人在会上表示,“通义听悟”瞄准的音视频内容赛道具有较高知识附加值,应用范围十分广泛。包括日常开会、教学、访谈、培训、面试和直播等场景,“通义听悟”都能通过自身技术提高用户工作效率。
比如在会议场景中,可以智能总结发言人观点、生成会议记录和统计待办事项。在教学场景中,该产品则具备直接抽取视频内的PPT截图、提供实时翻译和章节回顾等功能。更重要的是,“通义听悟”这才刚刚上线,之后将会继续优化,提供更多定制化功能。
对于这款全新的大模型产品,阿里云CTO周靖人表示十分满意,并对其应用前景充满信心。
根据周靖人介绍,“通义听悟”集成了阿里云最先进的语音、语言技术,包括自研的语音语义多模态算法、新一代阿里工业级语言识别模型等,都在“通义听悟”中得到应用。此外,“通义听悟”还将和阿里云盘全面打通,支持转写内容直接上云,为用户提供更大的储存空间。
花了那么多资源、精力开发“通义听悟”,阿里云的最终目的是惠及更多行业、企业,为数字经济的发展出一份力。目前,“通义听悟”已全面开放公测,公测期间阿里云官方微博、微信和各大平台会发放大量转写口令码,用户的权益可以叠加、累积,服务免费时常将达到100小时以上。
正如周靖人所说,“通义听悟”可以让音视频阅读、整理、分享变得更轻松,为各个行业打开通往AI的大门。
从产品形态来看,科大讯飞旗下的“讯飞听见”语音平台是阿里“通义听悟”的子集。“讯飞听见”目前较多被媒体人等文案工作者应用,比如用来进行采访录音速记的文字转写提取。不过,阿里云“通义听悟除了能进行音频内容处理外,还能处理视频内容。
还有一点区别是,“讯飞听见”是深度学习AI时代的产品,“通义听悟”则是大模型时代的应用。“讯飞听见”目前采取收费模式,转写30分钟大概需要10元左右的成本,用户也可以通过购买小时卡、月卡会员等方式获得语音转写时长。
作为后来者,“通义听悟”采取了半免费的策略,公测期用户每天可以获得2小时转写时长,每邀请一名用户还可以获得2小时时长,显然,“通义听悟”希望通过裂变的方式去获取用户,以“半免费”的模式推动大模型AI产品普及,至于赚钱多少其实不重要,因为这样的产品即便收费赚到的钱在阿里云的营收规模前可能连“蚊子肉”都算不上,阿里云也无意通过C端消费者赚钱,做产业数字化和智能化升级的基础设施才是它要做的事情。
事实上,早在发布“通义听悟”之前,阿里云就已经为数字经济的发展做出了很大贡献。
在粤港澳大湾区分会场,阿里云首席商业官蔡英华也公布了一组数据:截止目前,阿里云已经服务粤港澳大湾区近75万付费客户,包括金融、政务、水利、制造等行业,帮助无数中小企业实现数字化升级转型。以制造业为例,阿里云工业互联网全国总部就落户在广东,扶持了当地超过500家制造企业上云。
展望未来,在“通义听悟”等AI大模型产品面世后,相信阿里云的数字服务能力将进一步加强,并给更多企业带去帮助。