当前位置：文江博客话题详情

如何从音频文件中分离男声和女声（c++或java）

发布于 2024-07-14 20:31:19 字数 69 浏览 19 评论 0原文

我想区分音频文件中的男声和女声并将它们分开。作为输出，我希望将两个声音分开。你能帮我一下吗？编码可以用java还是c++完成

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

予囚 2024-07-21 20:31:19

这可能是一个非常复杂的问题，它类似于编写自己的语音识别（或识别）算法。

首先，您可以使用快速傅里叶变换将音频转换为频域。

对于您进行 FFT 的每个时间片，这将为您提供频率及其幅度的列表。您将需要通过分析谐波来检测基音。第二次和第三次谐波将是最清晰的。很难弄清楚它们是哪些谐波，尤其是考虑到背景噪音以及人声之间的自然差异（就哪些谐波最大而言）。然后，您可以尝试根据您猜测的基音来确定说话者是男性还是女性。

请记住，在许多词性中，例如齿音（“s”、“t”等），没有音调，只有噪音。它需要非常聪明。

希望这能让您朝着正确的总体方向前进。

注意：如果两个声音同时出现并且您想将它们完全分开，那么这对您没有帮助。我不相信活着的人能解决这样的问题。

回复收藏 0 原文

相思故 2024-07-21 20:31:19

我认为这已经是可能的。我刚刚开始参加斯坦福大学 Andrew Ng 教授开设的机器学习在线课程，在第一堂课中，他展示了一个演示，其中处理两个重叠声音的录音并提取单个声音（与音乐中的音乐相同）背景和说话的人）。显然，它使用了一种无监督学习算法，可以提取两种潜在模式。您可能想研究一下该课程（这里有该课程的一个版本：http://www. academicearth.org/courses/machine-learning）

回复收藏 0 原文