焦点！仅用1/4数据量还原真人语音100%细节，火山语音上新语音合成技术

来源：量子位　2022-09-14 20:27:37

数星星盼月亮，万千杰迷苦等6年，不久之前终于等到周董发新专辑啦！一经上线引爆全网讨论。

(资料图)

正当大家沉浸在对那时青葱岁月的美好追忆时，发来上述这段音频的小伙伴表示：这段对话居然是语音合成的！提到“语音合成”，你脑海中可能会出现这样的种种：

导航中种类丰富但语气机械的“前方路口左转”…… 接电话时，对面笨拙无感情的“您好，这里是xx信用卡中心”…… 视频网站上，十个解说视频九个声音相同，看到就想赶快划走的“注意看，这个男人叫小帅”…...

而如今直接颠覆了许多人的刻板印象，语音合成技术已经能做到像上面那段音频一样完美自然的效果了。这段音频的发布者， 火山语音，字节跳动 AI Lab Speech & Audio 智能语音与音频团队 ，为了更好地向大众解密里面的技术亮点。

这几句输入的文本完全相同，即 “南方菜系偏爱蘸料，例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料” ，但合成的音频效果却有明显差异， 即第二段音频来源于火山语音团队本次上新的超自然对话语音合成技术。

回想一下人在日常表达时的状态，大脑处理信息是需要思考时间的。体现到语言上，人就会不由自主的出现一些犹豫、拖音、倒装，甚至是说了一半改口、结巴重复的情况，也会刻意加重读音强调想表达的重点信息。这就带来了大量难以观测的细微表达。这些现象在传统的TTS中难以被捕捉还原。而这些细微之处的完美复现正是让声音真假难辨的奥妙之源，也是上述音频的奥秘所在。

具体来说，火山语音团队最新发布的超自然对话语音合成技术相较传统TTS更加真实自然，即语气词、吸气声、犹豫时的停顿以及字音拖长等细节统统被完美复现，而且只需常规音库1/4数据，就可完美还原真人说话细微的韵律特点、发音口癖，让合成效果更加真实。

有专业评测结果显示，火山语音的这项新技术与真人录音对比基本没有差距，难以被评测者分辨出来。 此外这项技术目前已在视频配音、电话客服等多个场景投入应用，近日即将上线火山引擎语音技术官网对外露出。

这么厉害的技术，究竟是怎么办到的？

据介绍，上述这些在实际交流中经常出现的倒吸气、吞音、思考时不由自主的拖长字音、低笑等表现被称为副语言现象（paralanguage） ，尽管这是人脑思考、表达过程中最真实的表现，但由于传统的语音合成技术框架无法对分布稀疏的副语言现象进行有效建模，所以在说话时的韵律还原度表现有限、过于“正确”。基于上述难点，火山语音超自然语音合成技术分别从 文本和语音建模 两个层面进行突破，具体来说：

在文本层面，火山语音采用了生成式的风格迁移模型，模仿真人说话的方式对文本进行可控的口语化转写，让文本更好地拥抱口语化，避免最终效果太过书面。 在语音层面，团队则是通过文本分析模型的突破，在TTS的输入侧额外增加了副语言预测，模仿真人的发音特点来实现自然自发的语音效果。

值得一提的是，团队通过使用无监督特征的TTS建模方案，有效提高了模型的稳定性与表现力，仅仅使用常规音库1/4的数据规模，就可以实现十分自然多变的韵律效果，很赞吧？

致力文本口语化让“拟真人表达”跃然纸上

文本作为语音合成技术的输入，其风格是否贴近真人的表达方式，是合成效果提升的第一步；但受限于根深蒂固的书写用语习惯，大多数合成前的文本并不够自然，或者需要投入大量精力不断调整，费时费力。为了解决此类问题，火山语音团队采用了两阶段方案并取得了不错的效果：

阶段一：采用自监督方法，使用伪数据对口语化模型进行预训练，降低了数据量的需求；同时在模型中引入了指针网络结构，增强了文本可控性。 阶段二：利用少量优质的人工标注数据，对预训练好的口语化模型进行微调，最终实现可控的、自然的口语化文本效果。

原始文本	自动化预测后的文本
南方菜系偏爱蘸料，例如我第一次去上海才知道烧烤里的蔬菜也需要配蘸料	嗯，南方菜系的话，超级偏爱用蘸料啊什么的，就比如说我第一次呃，第一次去上海的时候，才知道这个烧烤里的蔬菜也得配着蘸料
像我们上街去买白菜，南方人说我要半颗白菜，北方人说我来半车白菜	嗯这跟我们上街买白菜差不多吧，南方人说我要半棵白菜，然后那个北方人说我来半车
其实南方菜系更偏重吃调料的味道，即厨师用调料去发挥他的功力	对，其实南方菜系更偏重的是吃它这个调料的味道，也就是说，厨师这个，用调料去发挥他的功力

副语言建模+韵律多样性可圈可点

语音真实感全面升级

为了更好地还原真人，区别于传统的语音合成技术，火山语音在副语言建模和韵律多样性上也分别进行了深入研究。在副语言建模方面，团队推出的合成技术实现了声学模型对自然表达中出现的吸气、笑声、犹豫、修正等多种副语言现象建模，并且结合文本的语义信息自动插入副语言现象。在插入过程中同时考虑合理性与随机性，表现更加自然真实。

“在韵律多样化的探究中，我们结合无监督表征学习技术，自主研发了高表现力的声学模型框架，通过发音、韵律、音色解耦等方式，不但降低了数据量的需求，实现对出现频率极低发音现象的高效建模；同时使用无监督表征特征并结合音素级别的基频、能量信息等，实现了韵律的自然多变，促成高质量对话语音生成。”火山语音团队总结道。

火山语音，字节跳动AI Lab Speech&Audio智能语音与音频团队，长期以来面向抖音、剪映、番茄小说、飞书等业务提供领先的AI语音技术能力及全栈语音产品解决方案，并通过火山引擎向外部企业开放技术服务。

关键词：语音合成不由自主声学模型

推荐DIY文章