当前位置：首页|资讯|ChatGPT|大语言模型|人工智能

能听懂语音的ChatGPT来了：10小时录音扔进去，想问什么问什么

作者：机器之心Pro发布时间：2023-06-05

ChatGPT 大语言模型人工智能

机器之心报道

编辑：张倩

类 ChatGPT 模型的输入框里可以粘贴语音文档了。

大型语言模型（LLM）正在改变每个行业的用户期望。然而，建立以人类语音为中心的生成式人工智能产品仍然很困难，因为音频文件对大型语言模型构成了挑战。

将 LLM 应用于音频文件的一个关键挑战是，LLM 受其上下文窗口的限制。在一个音频文件能够被送入 LLM 之前，它需要被转换成文本。音频文件越长，绕过 LLM 的上下文窗口限制的工程挑战就越大。但工作场景中，我们往往需要 LLM 帮我们处理非常长的语音文件，比如从一段几个小时的会议录音中抽取核心内容、从一段访谈中找到某个问题的答案……

最近，语音识别 AI 公司 AssemblyAI 推出了一个名为 LeMUR 的新模型。就像 ChatGPT 处理几十页的 PDF 文本一样，LeMUR 可以将长达 10 小时的录音进行转录、处理，然后帮用户总结语音中的核心内容，并回答用户输入的问题。

试用地址：https://www.assemblyai.com/playground/v2/source

LeMUR 是 Leveraging Large Language Models to Understand Recognized Speech（利用大型语言模型来理解识别的语音）的缩写，是将强大的 LLM 应用于转录的语音的新框架。只需一行代码（通过 AssemblyAI 的 Python SDK），LeMUR 就能快速处理长达 10 小时的音频内容的转录，有效地将其转化为约 15 万个 token。相比之下，现成的、普通的 LLM 只能在其上下文窗口的限制范围内容纳最多 8K 或约 45 分钟的转录音频。

为了降低将 LLM 应用于转录音频文件的复杂性，LeMUR 的 pipeline 主要包含智能分割、一个快速矢量数据库和若干推理步骤（如思维链提示和自我评估），如下图所示：

图 1：LeMUR 的架构使用户能够通过一个 API 调用将长的和 / 或多个音频转录文件发送到 LLM 中。

未来，LeMUR 有望在客服等领域得到广泛应用。

LeMUR 解锁了一些惊人的新可能性，在几年前，我认为这些都是不可能的。它能够毫不费力地提取有价值的见解，如确定最佳行动，辨别销售、预约或呼叫目的等呼叫结果，感觉真的很神奇。—— 电话跟踪和分析服务技术公司 CallRail 首席产品官 Ryan Johnson

LeMUR 解锁了什么可能性？

将 LLM 应用于多个音频文本

LeMUR 能够让用户一次性获得 LLM 对多个音频文件的处理反馈，以及长达 10 小时的语音转录结果，转化后的文本 token 长度可达 150K 。

可靠、安全的输出

由于 LeMUR 包含安全措施和内容过滤器，它将为用户提供来自 LLM 的回应，这些回应不太可能产生有害或有偏见的语言。

可补充上下文

在推理时，它允许加入额外的上下文信息，LLM 可以利用这些额外信息在生成输出时提供个性化和更准确的结果。

模块化、快速集成

LeMUR 始终以可处理的 JSON 形式返回结构化数据。用户可以进一步定制 LeMUR 的输出格式，以确保 LLM 给出的响应是他们下一块业务逻辑所期望的格式（例如将回答转化为布尔值）。在这一流程中，用户不再需要编写特定的代码来处理 LLM 的输出结果。

试用结果

根据 AssemblyAI 提供的测试链接，机器之心对 LeMUR 进行了测试。

LeMUR 的界面支持两种文件输入方式：上传音视频文件或粘贴网页链接均可。

我们用 Hinton 近期的一份访谈资料作为输入，测试 LeMUR 的性能。

上传之后，系统提示我们要等一段时间，因为它要先把语音转成文字。

转录之后的界面如下：

在页面右侧，我们可以要求 LeMUR 总结采访内容或回答问题。LeMUR 基本可以轻松地完成任务：

如果要处理的语音是一段演讲或客服回复，你还能向 LeMUR 征求改进建议。

不过，LeMUR 似乎目前还不支持中文。感兴趣的读者可以去尝试一下。

推荐体验

相关资讯

什么是ai录音工牌？Ai录音工牌有什么功能？

在如今的数字化时代，人工智能技术正迅速地改善着商业运作的各个方面。随着ChatGpt的大火，以AI和语音为依托的语音工牌也受到越来越多行业客户的青睐。一、什么是ai录音工牌？AI录音工牌是一种具有人工智能技术的录音设备，它可以通过语音识别、语义理解和自然语言处理等技术，将语音信息转化为文本，并进行语音分析和语音识别。AI录音工牌可以广泛应用于会议记录、电话客服、语音助手等场景，帮助人们更高效地记录和处理语音信息。他更是一种新型的录音和定位设备，它可以实现线下销售和服务场景工作人员与客户互动过程的语音采集、

人工智能 ChatGPT 客服

挖矿小能手冲冲冲 2023-09-22

你想问文心一言什么问题，我们帮你问 | 内测活动

告诉我们你想问的，我们帮你抢先问问文心一言

数字时氪 2023-03-17

真能听懂人话！机器人ChatGPT来了，谷歌发布又一AI大模型黑科技

周五，这家前沿AI研究机构宣布以训练AI聊天机器人的方式训练了一款全新的机器人模型RoboticTransformer2（RT-2）。RT-2相当于机器人版ChatGPT，被GoogleDeepMind称作是其视觉-语言-动作（VLA）模型的新版本。

ChatGPT 谷歌 AI大模型 AI聊天机器人

智东西 2023-07-31

用 ChatGPT 开发一个能听懂人话的命令行工具

本文将通过一个简单的命令行自然语言翻译程序，来展示如何使用 ChatGPT API，更重要的是让前端的你对 Prompt Engineering 有更深的理解。

ChatGPT 提示词

字节前端 2023-04-04

小白也能听懂的人工智能原理

以下是目录，需要的评论或私信小白也能听懂的人工智能原理课程资料 1.一元一次函数感知器：如何描述直觉.mp4 10.卷积神经网络：打破图像识别的瓶颈.mp4 11.卷积神经网络：图像识别实战.mp4 12.循环：序列依赖问题.mp4 13.LSTM网络：自然语言处理实践.mp4 14.机器学习：最后一节课也是第一节课.mp4 2.方差代价函数：知错.mp4 3.梯度下降和反向传播：能改（上）.mp4 4.梯度下降和反向传播：能改（下）.mp4 5.激活函数：给机器注入灵魂.mp4 6.隐藏层：神经网络

人工智能机器学习

兔兔牙饿了 2023-11-14

近期资讯

常州康普斯取得轧辊加工磨削装置专利，避免力度过大导致磨削过度或磨削头卡死

金融界2024年11月9日消息，国家知识产权局信息显示，常州康普斯冶金设备科技有限公司取得一项名为“一种轧辊加工磨削装置”的专利，授权公告号CN221967559U，申请日期为2023年12月。

金融界 2024-11-09

麻城市马宝特钢取得可灵活调整的无心磨系统专利，助力提高生产效率

金融界2024年11月9日消息，国家知识产权局信息显示，麻城市马宝特钢有限公司取得一项名为“一种可灵活调整的无心磨系统”的专利，授权公告号CN221967556U，申请日期为2024年2月。专利摘要显示，本实用新型公开了一种可灵活调整的无心磨系统，属于气门生产技术领域。

金融界 2024-11-09

鑫睿工业智能取得棒料精磨机修砂轮机构专利，提升砂轮修复的精度

金融界2024年11月9日消息，国家知识产权局信息显示，深圳市鑫睿工业智能有限公司取得一项名为“一种棒料精磨机的修砂轮机构”的专利，授权公告号CN221967548U，申请日期为2024年3月。

金融界 2024-11-09

西尼尔（山东）新材料科技申请密封的抗氧化剂储存装置专利，抗氧化剂添加过程中不会与空气接触

金融界2024年11月9日消息，国家知识产权局信息显示，西尼尔（山东）新材料科技有限公司申请一项名为“一种密封的抗氧化剂储存装置”的专利，公开号CN118907685A，申请日期为2024年8月。

金融界 2024-11-09

罗普特取得基于神经网络的多模态智能终端射频校准方法专利

金融界2024年11月9日消息，国家知识产权局信息显示，罗普特科技集团股份有限公司取得一项名为“基于神经网络的多模态智能终端射频校准方法”的专利，授权公告号CN118646495B，申请日期为2024年8月。

金融界 2024-11-09

深圳市鑫睿工业智能有限公司取得精磨机粗磨机构专利，提升加工良品率和效率

金融界2024年11月9日消息，国家知识产权局信息显示，深圳市鑫睿工业智能有限公司取得一项名为“一种精磨机粗磨机构”的专利，授权公告号CN221967541U，申请日期为2024年3月。

金融界 2024-11-09

科德数控取得卧式五轴车铣复合加工中心专利，有效确保工件的机械加工精度

金融界2024年11月9日消息，国家知识产权局信息显示，科德数控股份有限公司取得一项名为“一种卧式五轴车铣复合加工中心”的专利，授权公告号CN221967539U，申请日期为2024年3月。

金融界 2024-11-09

青岛同泰制冷精密管件取得制冷管件生产打磨装置专利，能够对不同直径的管材进行打磨提高工作效率

金融界2024年11月9日消息，国家知识产权局信息显示，青岛同泰制冷精密管件有限公司取得一项名为“一种制冷管件生产打磨装置”的专利，授权公告号CN221967560U，申请日期为2024年3月。

金融界 2024-11-09

宁夏伟创药业申请易燃易爆物料的安全智能储罐专利，能够实现对储罐实时监测参数的阈值判断并实现自动防护措施

金融界2024年11月9日消息，国家知识产权局信息显示，宁夏伟创药业有限公司申请一项名为“一种易燃易爆物料的安全智能储罐”的专利，公开号CN118907686A，申请日期为2024年9月。

金融界 2024-11-09

鑫睿工业智能取得一种棒料精磨机专利，提升了设备自动化程度大幅提升加工效率

金融界2024年11月9日消息，国家知识产权局信息显示，深圳市鑫睿工业智能有限公司取得一项名为“一种棒料精磨机”的专利，授权公告号CN221967549U，申请日期为2024年3月。

金融界 2024-11-09

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1