当前位置：文江博客话题详情

API 将语音分解为音素/根据给定的语音样本合成新的语音？

发布于 2024-11-29 03:24:24 字数 110 浏览 1 评论 0原文

您知道那些电影中，技术极客录制某人的声音，然后他们的软件将其分解为音素吗？然后他们可以用它来输入任何短语，并让目标看起来像是在说这句话？

该软件是否存在 API 版本？我什至不知道谷歌什么。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天冷不及心凉 2024-12-06 03:24:24

没有这样的软件。将任意语音分解为其组成音素只是部分解决的问题：语音转文本软件仍然不完善，就像文本转语音。

这个想法是重现目标声音的音色。即使您能够完美地分割音频，重新排序音素也会产生节奏和语调不自然的音频，更不用说拼接伪影了。此时，您将进入平滑、时间缩放和音调校正，所有这些在理论上都是可能的并且很好理解，但在实际数据上运行不佳，特别是当所讨论的音频样本短于单个音素，以及需要保留音色时的进一步。

这些问题在语音方面因口音和周围音素的声音异音变化而变得更加复杂。为了忠实地生成低质量的近似音频，您需要详细了解目标的语言、口音和语音模式。

此外，你的最终问题是社会工程之一，当涉及到时，人们并不容易被愚弄。他们认识的人的声音。即使有大量的输入数据，您最多也只能得到一个简短的低质量样本，几乎不足以进行对话。

因此，虽然这当然有可能，但很困难；即使它存在，也并不总是足够好。

回复收藏 0 原文

深府石板幽径 2024-12-06 03:24:24

SRI International（为 iOS 创建 Siri 的公司）有一个名为 EduSpeak，它将获取音频输入并将其分解为单独的音素。我知道这一点是因为大约一周前我观看了该产品的演示。在演示过程中，演示者向我们展示了一个使用 SDK 创建的应用程序。该应用程序提供了几行文本供演示者阅读。阅读文本后，应用程序显示一个条形图，其中每个条形代表他讲话中的一个音素。每个条形的高度代表每个音素发音的分数（演示者不是以英语为母语的人，因此与其他音素相比，他在某些音素上获得的分数较低）。演示者还可以单击每个单独的条，以便使用原始音频仅播放该单独的音素。

所以，是的，存在按音素划分音频的软件，并且它做得非常好。现在，这些音素是否可以重新组装成语音还是一个悬而未决的问题。如果我们最终获得 SDK 的试用版，我会尝试一下并通知您。

回复收藏 0 原文