创建 TTS 包

发布于 2024-09-07 18:51:04 字数 1436 浏览 3 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

放低过去 2024-09-14 18:51:04

为文本转语音引擎创建新的声音是一个复杂的过程。这不仅仅是让配音艺术家录制音频并简单地从中创建声音的问题。这方面需要做很多工作(将音频分割为音素;构建语音数据;构建词典;正确设置韵律和音频连接/合成规则)。

对于像 Microsoft 文本转语音引擎这样的语音引擎,您还面临着语音格式是专有的问题,因此您无法以该格式创建新的语音。您还受到引擎功能的限制。

目前您最好的选择是:

  1. 切换到使用 eSpeak 文本转语音引擎并使用 espeakedit 创建您自己的声音(联系开发人员寻求帮助)——该引擎使用一种合成方法,使其听起来相似微软的和史蒂芬·霍金用的语音,但是很清晰,发音总体很好;
  2. 使用不同的文本转语音引擎,例如使用语音录音的 Cepstral(这些引擎听起来更像人类,但我发现韵律不是很好,破坏了生成的音频);
  3. 使用 Cepstral 的服务来创建特定于您需求的语音(这可能很昂贵)。

我正在考虑使用 librivox.org 中的音频数据来生成文本到语音的声音。不过,这可能还需要 3 到 4 年的时间,我才能真正发挥作用。

Creating a new voice for a text-to-speech engine is a complex process. It is not just a matter of getting a voice artist to record audio and simply creating a voice from that. There is a lot of work that goes into this (segmenting the audio into phonemes; building the voice data; building the dictionary; getting the prosody and audio joining/synthesizing rules correct).

For a voice engine like the Microsoft Text-to-Speech engine, you are also facing the problem that the voice format is proprietary and so you cannot create new voices in that format. You are also limited by the capabilities of the engine.

Your best bet at the moment is either:

  1. switching to using the eSpeak text-to-speech engine and using espeakedit to create your own voice (contacting the developer for help with this) -- this engine uses a synthesis method that makes it sound similar to the Microsoft's and the voice Stephen Hawking is using, but they are very clear and the pronunciation is on the whole very good;
  2. using a different text-to-speech engine like Cepstral that use voice recordings (these tend to sound more human-like, but I have found that the prosody is not very good, ruining the resulting audio);
  3. using the service from Cepstral to create a voice specific for your needs (which is likely to be expensive).

I am looking at using the audio data from librivox.org to generate text-to-speech voices from. This is likely 3-4 years away though, before I have anything close to being functional.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文