字节跳动推出大模型同传智能体，“接近人类同声传译水平”

作者：多知网发布时间：2024-07-30

多知7月30日消息，近日，字节跳动 ByteDance Research 团队的研究人员推出了端到端同声传译智能体：CLASI(Cross Language Agent - Simultaneous Interpretation) ，效果已接近专业人工水平的同声传译。

此前，市面上传统的同声传译软件通常采用级联模型(cascaded model)的方法，即先进行自动语音识别(Automatic Speech Recognition, ASR)，然后再进行机器翻译(Machine Translation, MT)。这种方法存在一个显著的问题——错误传播。ASR 过程中的错误会直接影响到后续的翻译质量，导致严重的误差累积。此外，传统的同声传译系统由于受限于低延时的要求，通常只使用了性能较差的小模型，这在应对复杂多变的实际应用场景时存在瓶颈。

而CLASI 采用了端到端的架构，规避了级联模型中错误传播的问题，依托于豆包基座大模型和豆包大模型语音组的语音理解能力，同时具备了从外部获取知识的能力。从字节方面释出的几则视频中可以看到，无论是绕口令、文言文，还是充满即兴和灵感的随意聊天，模型都能流畅自然地给出准确的翻译结果。

系统架构上，CLASI 采用了基于 LLM 智能体的架构，将同声传译定义为一系列简单且协调的操作，包括读入音频流，检索(可选)，读取记忆体，更新记忆体，输出等。整个流程由大语言模型自主控制，从而在实时性和翻译质量之间达到了高效的平衡。该系统能够根据实际需求灵活调整各个环节的处理策略，确保在高效传递信息的同时，保持翻译内容的准确性和连贯性。CLASI 底层模型是一个 Encoder-conditioned LLM，在海量的无监督和有监督数据上进行了预训练。

相关资讯

波蓝耳 2024-03-11

字节跳动推出大模型同传智能体，“接近人类同声传译水平”

推荐体验

相关资讯

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

字节跳动推出端到端同声传译智能体；OpenAI 搜索引擎 SearchGPT 登

字节跳动推出端到端同声传译智能体；OpenAI 搜索引擎 SearchGPT 登场丨 RTE 开发者日报

同声传译新突破！谷歌 Translatotron 3模型：可绕过文本转换步骤

iKKO Activebuds：耳机新革命！智能安卓系统、同声传译，开创听觉智能新。

近期资讯

性能直逼公版！AMD Radeon RX 9070 XT显卡测试成绩曝光

金鸿阳取得一种 PP 焊条加工的牵引装置专利，便于在牵引过程中对焊条进行缓冲防护工作

南通德舜昌取得线盘进出式自动收线机构专利，能让铜线有序排列环绕在线盘上面

湖南张力汇龙科技取得带衰减功能的电子张力器专利，能够避免张力弹簧迅速回弹造成线缆断裂

全面解析行政区划代码查询的多种方法与重要性

如何利用苹果手机进行高质量视频电话，保持亲友联系与沟通乐趣

《黑神话：悟空》重大更新：画面精细度大幅提升

优化手机触控灵敏度的实用指南与调整步骤分享

AMD新款显卡性能接近RTX 4080 公版只有260W

广东戴科电缆取得一种阻燃B1电缆专用牵引装置专利，避免出现使用平带因受压造成隔氧层变形和电缆圆整度不佳的现象

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响