字节跳动推出大模型同传智能体，“接近人类同声传译水平”

作者：多知网发布时间：2024-07-30

多知7月30日消息，近日，字节跳动 ByteDance Research 团队的研究人员推出了端到端同声传译智能体：CLASI(Cross Language Agent - Simultaneous Interpretation) ，效果已接近专业人工水平的同声传译。

此前，市面上传统的同声传译软件通常采用级联模型(cascaded model)的方法，即先进行自动语音识别(Automatic Speech Recognition, ASR)，然后再进行机器翻译(Machine Translation, MT)。这种方法存在一个显著的问题——错误传播。ASR 过程中的错误会直接影响到后续的翻译质量，导致严重的误差累积。此外，传统的同声传译系统由于受限于低延时的要求，通常只使用了性能较差的小模型，这在应对复杂多变的实际应用场景时存在瓶颈。

而CLASI 采用了端到端的架构，规避了级联模型中错误传播的问题，依托于豆包基座大模型和豆包大模型语音组的语音理解能力，同时具备了从外部获取知识的能力。从字节方面释出的几则视频中可以看到，无论是绕口令、文言文，还是充满即兴和灵感的随意聊天，模型都能流畅自然地给出准确的翻译结果。

系统架构上，CLASI 采用了基于 LLM 智能体的架构，将同声传译定义为一系列简单且协调的操作，包括读入音频流，检索(可选)，读取记忆体，更新记忆体，输出等。整个流程由大语言模型自主控制，从而在实时性和翻译质量之间达到了高效的平衡。该系统能够根据实际需求灵活调整各个环节的处理策略，确保在高效传递信息的同时，保持翻译内容的准确性和连贯性。CLASI 底层模型是一个 Encoder-conditioned LLM，在海量的无监督和有监督数据上进行了预训练。

相关资讯

波蓝耳 2024-03-11

字节跳动推出大模型同传智能体，“接近人类同声传译水平”

推荐体验

相关资讯

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

字节跳动推出端到端同声传译智能体；OpenAI 搜索引擎 SearchGPT 登

字节跳动推出端到端同声传译智能体；OpenAI 搜索引擎 SearchGPT 登场丨 RTE 开发者日报

同声传译新突破！谷歌 Translatotron 3模型：可绕过文本转换步骤

iKKO Activebuds：耳机新革命！智能安卓系统、同声传译，开创听觉智能新。

近期资讯

年度性价比之王——荣耀X50，清仓退场，入手仅需1129元！

西门子iQ300滚筒洗衣机：性价比之选，开启智能洗涤新纪元

永安行氢能申请 PEM 电解槽及其制作方法专利，降低成本

华为Pura70Ultra，2000元的优惠力度，非常值得体验！

如何有效扩大手机内存？实用技巧与方法全解析

如何有效清理苹果设备存储空间，提升使用体验与运行流畅度

李想称理想是人工智能公司：大模型将对人类产生根本性改变

惠普新工作站笔记本曝光，配 AMD Ryzen AI MAX+ PRO 395 APU

卡萨帝揽光W2滚筒洗衣机：国补825元，高端智能洗涤新体验

搭建起技能融通、民心相通的交流平台（弘扬“上海精神”：上合组织在行动）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响