识别个人声音

发布于 2024-08-31 14:33:34 字数 177 浏览 10 评论 0 原文

我计划编写一个对话分析软件，它可以识别各个说话者、他们的音调和强度。音调和强度有些简单（通过自相关获得音调）。

我将如何识别各个说话者，以便记录他/她的特征？为每个说话者的频率存储一些启发式数据就足够了吗？我可以假设一次只有一个人说话（严格不重叠）。我还可以假设，为了进行训练，每个演讲者可以在实际分析之前记录一分钟的数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

傲娇萝莉攻 2024-09-07 14:33:34

音高和强度本身并不能告诉你什么。您确实需要分析音调如何变化。为了识别不同的说话人，您需要将语音音频转换为某种特征空间，然后与该特征空间中的说话人数据库进行比较。您可能想要在 Google 上搜索的通用术语是 prosody - 请参阅例如 http://en.wikipedia.org/wiki/Prosody_(linguistics)。当您在谷歌上搜索时，您可能还想阅读说话人识别，又名说话人识别，请参阅< a href="http://en.wikipedia.org/wiki/Speaker_identification" rel="nofollow noreferrer">http://en.wikipedia.org/wiki/Speaker_identification

回复收藏 0 原文

入怼 2024-09-07 14:33:34

如果您仍在研究这个...您是否在声音输入上使用语音识别？因为 Microsoft SAPI 为应用程序提供了丰富的 API 来挖掘语音声波，这可以使说话人识别问题更容易处理。我认为你可以得到波形内的音素位置。例如，这可以让你对元音进行功率谱分析，这可以用来生成特征来区分说话者。（在任何人开始抱怨音高和音量之前，请记住，共振峰曲线来自声道形状，并且完全独立于音高，即声带频率，并且共振峰的相对位置和相对幅度是（相对！）与总音量无关。）上下文中的音素持续时间也可能是一个有用的功能。 “n”个声音期间的能量分布可以提供“鼻音”特征。等等。只是一个想法。我希望自己能在这个领域工作。