耳朵没错，是声音太真了，字节豆包语音合成成果Seed-TTS技术揭秘

作者：机器之心Pro发布时间：2024-06-26

字节跳动

Seed-TTS 是字节跳动豆包大模型团队近期发布的语音生成大模型成果。

它生成的语音几乎与真人完全一样，连发音瑕疵也能生成出来，尤其在学习模仿人类说话方面，相似性和自然度均有很好表现。

举例来说，将一段语音提供给 Seed-TTS，它就能按文本生成全新语音，且带上原素材的声音特征。

更多演示及原理，请见原论文及效果展示：

论文链接：https://arxiv.org/abs/2406.02430
效果展示：https://bytedancespeech.github.io/seedtts_tech_report/

在公布技术报告之前，Seed-TTS 部分技术已在 C 端产品上线一段时间，获得用户很多真实好评，并对外以豆包语音合成模型和豆包声音复刻模型进行技术商业化服务。

关于该成果的技术亮点、研究价值、克服了哪些挑战，不妨听听团队的分享。

一个语音生成基座大模型

Q：Seed-TTS 已被一些圈内人关注到，有什么认可，让你印象很深？

A：有个做语音识别的教授，后来在一家公司就职，是我非常佩服的业内人。不久前一次学术会议，我们演示了 Seed-TTS 的 Demo ，他看了以后就反馈说，最近本想看看语音生成方向有什么可做的，看完觉得这方面工作好像没什么可干的了。尽管我觉着仍有提高空间，但听完自己是非常开心的。

Q：为什么感到开心？

A：别人直接说你做得好，更多可能是客气。但这位教授当时正寻找相关研究课题，在这期间，看到我们的成果，给出正面评价，并且觉得我们的成果已经很好了，要另寻其他题，这对我们真的是很高的认可。

Q：对比此前成果，Seed-TTS 有什么不同？

A：它是一个语音生成的基座模型，跟多数语音生成模型稍有不同。具体来说，传统 TTS 是单一任务模型，但对于基座模型，我们希望它能干任何任务，发出任何声音，且同时允许我们进行很多个维度的操控，比如方言，真人口癖，甚至吞字这类语音上的瑕疵。

只要世界上存在的语音方式，英语、日语、汉语，甚至各类语言中的方言，如汉语中的陕西话、河南话…或者是开心、难过、大哭大喊、生气，只要人类存在的声音，我们都希望它发出来。

Q：以上种种设想，都做到了么？

A：很大一部分做到了，当然也有一些地方做不到，但技术一直在往前走，就像现在语言模型是个基座，在文本层面有很深度的理解，我们也希望把它真正做成一个“基座”。

Q：做出一个“基座模型”的挑战在哪里？

A：第一是细节建模要好。以往 TTS 作为播报系统，其实很容易就能实现，但听起来是“机器音”，如果要做到基座模型，且声音像人，需要大量细节。尤其人类对自身声音很敏感，小狗小猫叫声即便不太自然，可能也听不出来，但人类语音有一点问题，听出来就很“机械”。

第二，需要高自然度和高稳定性。前两年的主流 TTS 大多都基于先验知识和时长模型，每一个 Phone 都会定义出来，但从底层就限制了表现力。倘若去掉这些，则会出现稳定性和自然度问题，这又是一个挑战。

第三是数据覆盖（ Data Coverage ）量级很大。我们想做到复制任何人的声音与各种语言方言，包括复刻人类发音不完美，比如：吞字、发音不标准。为了重建这些特征，还原“不完美”，数据覆盖（ Data Coverage ）一定要高。之前，业界所使用的数据在成百上千的小时量级，也有上万小时的模型，Seed-TTS 所用的数据量级是远大于之前的。这么大量级的数据，还会带来质量和数量的平衡问题，这也是一个难点。

第四，模型设计。这么大规模情况下，如何设计模型，使得各方面效果都比较好，这也是很大挑战。

最后是工程挑战。上面提到了，我们的数据量级大，模型复杂度高，自然就会带来工程方面问题，这方面之前也很少有人去解决。

Q：技术层面看，解决这些挑战有什么价值？

A：主要是在研究过程中，试图回答了很多过去没解决的问题：

生成模型有语言模型和扩散模型两套，分别偏向文本和图像，语音同时具备文本和图像两者的属性，这两者哪个更适合用来语音建模，这是我们要去回答的问题。
语音和文本有很多相似之处，如何设计语音的表征，使其更适合语言模型建模，也是需要解决的问题。
如何利用强化学习，将各种主客观的偏好信息集成到生成系统里，同样是问题之一。

其他方面亮点还有很多，包括自回归语音生成模型的稳定性问题。此外，通过这回研究，我们也在尝试从 TTS 领域外的视角看 TTS 问题。

Q：你提到了对语言模型和扩散模型的研究，从中我们得出什么结论？

A：Seed-TTS 不仅提供一个基于语言模型的技术方案，同时，也提供另一个完全脱离时长模型的 Diffusion 技术方案，这在业内也是第一个。

此外，经过对两个系统的大量比较，我们发现，语言模型对于流式处理相对友好，扩散模型对编辑处理更为合适，我相信在未来，这两者会继续融合。

Q：对于这两个系统，Seed-TTS 具体解决了哪些技术难点？

A：针对语言模型系统，主要解决语音的 Tokenizer 和稳定性。

对于语言模型建模来说，语音 token 化是核心一环。目前市面上，连续和离散的 Tokenizer 都有，团队进行了较多探索。我们发现，Token 包含信息的设计，对整个模型各方面表现及稳定性有非常关键的影响，这既包括 Token 的信息、帧率等，也包括如何 Tokenizer ，以及如何将其再变回声音。目前，这些在业内探索并不多。

语言模型的稳定性方面，我们在 token ，模型设计，解码策略，数据准备上做了多方面的探索，真正做到了工业及应用的要求。

对于纯 Diffusion 系统，由于去掉了额外的时长模型，其难点同样集中在稳定性上。经过多方的尝试，我们在该链路上也实现了很好的指标。

Q：关于“语音和文本模型有很多相似之处”，这对我们有什么启发？

A：从文本大模型的视角看，语音生成模型也可以分为 Pretrain，Instruct Fine-Tuning 和 Post Training。

其中， Pretrain 可提高模型的基础能力，具体就体现为 Incontext Learning 能力，比如音色续写，语音克隆等能力。

对于 Instruct Fine-Tuning ，主要就是通过 Instruct ，让语音生成过程更加可控，就像导演跟演员去提要求，说话快点、慢点，怎么才能打动人，这些都被我们集成进去。

最后，我们还发现强化学习在很多维度可以为模型带来提高，将各种主客观偏好信息集成到生成系统里，包括稳定性、控制力、表现力、自然度等等。业内在这方面探索的人也不太多。

在上述基础上，我们也探索了利用合成数据以进行 Self-Distillation 的方法，同样获得非常好的收益。这在文本 LLM 中使用相对多一些，在语音行业，之前探索也相对较少。

Q：你三次提及“一些问题业内探索较少”，什么造成了这个现象？

A：一方面，之前语音生成领域的研究相对独立，有很多行业的传统经验，在这波 AIGC 大潮流下已经不一定适用了。从更广义角度看，语音生成跟文本、图像生成有很多共通之处。文本大模型，图像生成的快速发展也带给了我们很多新思考。由于新思路推广还需要时间，所以业内探索还比较少。

另一方面是很多研究者在学校里工作，没有相关资源。这里面系统性工程非常多，我们不仅能做到，而且探索也比较细，发现了一些能兼顾稳定性、表现力和运算量的模型。但这是不是做到了最好呢？可能还需要不断探索。

Q：整个研究过程中有什么里程碑式的时刻么？

A：基础效果去年就出了，此后我们用真实案例迭代了很多，这当中的工作包括：真实案例的寻找、各种 Post Training 、解决落地问题（比如各种场景下的稳定性、首包延迟、并发数、运算量等）。相比当时，现在效果又提升了非常多。

语音生成大模型走到哪一步了？

Q：现在回看，整个研究的价值在哪？

A：从 Seed-TTS 本身价值来说，语音不完全是工具，而是人类最直接的交互形式。比如从无声电影到有声电影，小小的变化，却是一个行业巨大的飞跃。人与人之间的情感连接更多依靠语音，比如小孩喊一声爸爸，给你的情感连接和读文字完全不一样。

如果我们要迈向真正的 AI ，语音的自然度是关键一环。过去我们想象的机器都是机器音，比如《流浪地球》里的 Moss ，如果 AI 真能像你的助手、伙伴一样，那语音带来的情感连接必不可少。《钢铁侠》的贾维斯之所以被很多人记住，也是因为它是真人配音的。

此外，在应用方面，语音的落地场景也非常多，比如小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达，都有用武之地，包括口吃、发不出声音的人仍然可以借助语音技术表达。只要不是纯粹信息媒介属性的语音场景，都有应用空间，这也是我们把基座模型做好的动力。

Q：Scaling law 已被一些从业者视为“信仰”，对于语音生成模型，我们把数据和模型 Scale 后，结果如何？

A：即便在很大量级上，我们继续扩大规模，也总能看见收益。总的来说，通过 Scale 的量级增大，我们很惊喜地看到，模型在不断获取新能力。

Q：根据你们的观察，这个极限在哪？

A：目前来说，我们依然每次仍能看到收益，肯定还需要继续探索。不过，我们已经证明通过正确的模型设计，可以打破 TTS 传统思路。以往，我们依靠少量高品质数据，但现在，我们不断增加量级，能获得更高收益。

Q：GPT4-o 对我们有什么启示？

A：它是一个生成和理解统一的模型，对语音技术的要求更高，需要一个模型同时具备听，说，想的能力。这些对我们工作提出很多新要求。

Q：目前语音领域大模型发展到哪一步了？

A：一方面是希望模型拥有专业演员级别的表现力和控制力。大部分时候，模型生成语音跟真人已经差别不大，但在影视剧中，演员表达情绪非常激烈，信息密度比较高，不完全能对齐。我们都希望把 Corner Case 补全。

另一方面就是细节的处理，包括 Bad Case 处理和优化，解决不常见的长尾情况。

大模型工作需要大量优秀人才参与进来

Q：本次 Seed-TTS 的发布，全球各地的同事都有参与进来，为什么有这么多人参与？

A：随着行业发展，多人合作是不可避免的。要把大模型做到极致，同时满足工业化落地，不可能通过 1 - 2 个想法支撑，必须很多人参与进来。且各方面参与者都得很专业。比如我们的数据，需要专业同学参与处理。再比如落地过程涉及很多细节，需要专门做评测、工程支持同学配合。他们都做出了巨大贡献。

我们可以看到 AI 前沿研究的主流玩家中，一个项目参与者人数非常多，每个环节都有专业的同学负责，如此高密度、高复杂度的人才协作、精密配合，对组织力的要求也是很高的。

Q：你眼中的团队氛围是怎么样？

A：我觉得是有“冲劲”和“抠细节”。“冲劲”体现在大家做事都很主动。出于好奇和改变行业的想法，这本身也是一个自驱的过程。这种氛围比较像创业公司，大公司比较少。

Q：你还提到了团队会“抠细节”，如何理解？

A：这个说的是抠真实场景中的细节。对于生成类工作，Demo 很容易做得漂亮，但在实际应用中，系统会面临各种各样的细节问题。为保证模型始终都有高质量的生成，满足用户需求，我们对系统稳定性和鲁棒性要求很苛刻，需要反复打磨，把每一个细节都做到很高质量。反而是 Demo ，我们没做太多优化。

Q：关于“不做太多 Demo 优化”，我们内部有过争论么？

A：有啊，尤其年轻同学们，毕竟大家都希望把比较好的一面展示出来，但我们还是希望拿到能够落地的效果，避免用户在真实使用过程中发现产品和 Demo 有很大落差，真正改变行业。

Q：目前相关技术在豆包 App 有应用么？

A：一些相关技术已经应用一段时间，在真实场景中经用户认可，我们才对外展示，还有部分技术正在做一些最后上线工作。

Q：哪些关键词能概括我们的团队？

A：第一个是专业。这体现在很多方面，包括数据、基础设施、模型设计等等。我们会很专业地去抠每个环节细节，从工业落地角度出发，把性能做到极致。

第二个词是专注与冲劲。为了达到我们的目标，专注和冲劲是少不了的。所以大家投入度非常高，等成果真正做出来后，大家也很有成就感，获得了自信。

第三个词是团结。团队协作的时候，大家都没什么领地意识，配合也会很顺畅，这让我感觉非常舒服，这在大公司是很少见的。

Q：我们团队希望持续吸引什么特质的人加入？

A：首先看价值观能不能符合上。能力固然是一方面，更重要的是，我们希望能找到同舟共济的伙伴，让每个人能获得自我实现。在这种价值观下合作，天然地，就会很顺畅。

其次是背景的多样性。目前 AI 各领域使用的方法都相似，且大家正逐渐往统一方向去融合，因此，强化学习、视觉识别、音频识别等领域的经验都对生成有至关重要的作用。我们希望不同专业背景的同学参与进来。我自己就是语音理解出身，转做 TTS 的。

最后是主观能动性和学习能力，对工作有高追求。生成式任务也有很多独特之处，我们希望候选人能找到任务与结合自身经验的结合点，这当中，主动学习能力是必要的，同时，我们希望能做出行业最好的技术和产品，日常也要求同学们怀揣这样的愿景不断前进。

以上即 Seed-TTS 团队同学的分享，目前团队还在持续招聘优秀人才。

如果你也对大模型技术怀揣理想，抱有热忱，同时认可豆包大模型团队的氛围，欢迎登录豆包大模型团队官网 team.doubao.com 或关注团队官方公众号，了解更多技术进展、团队故事、招聘信息。

字节跳动 Top Seed 人才计划正在招聘中，我们希望持续吸引和招募目标远大、有志于“用科技改变世界”的顶尖人才。加入我们，你将和最优秀的科学家、工程师一起，参与行业顶尖的技术挑战和攻坚。

一键投递岗位：https://jobs.bytedance.com/campus/position?keywords=&category=&location=&project=7369308514965489958&type=&job_hot_flag=&current=1&limit=10&functionCategory=&tag=&spread=1CMK9MG&storefront_id_list=