当前位置：文江博客话题详情

两个音频序列之间的感知相似性

发布于 2024-09-08 14:50:10 字数 263 浏览 12 评论 0原文

我想测量两个音频之间的距离。例如，我想将动物的声音与人类模仿该动物的声音进行比较，然后返回声音相似程度的分数。

这似乎是一个难题。解决这个问题的最佳方法是什么？我正在考虑从音频信号中提取一些特征，然后对这些特征进行欧几里德距离或余弦相似度（或类似的操作）。什么样的特征容易提取并且有助于确定声音之间的感知差异？

（我在某处看到 Shazam 使用哈希，但这是一个不同的问题，因为被比较的两段音频基本上是相同的，但其中一个有更多噪音。在这里，两段音频不一样，它们只是感知上的相似的。）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

遗失的美好 2024-09-15 14:50:10

比较一组声音的相似性的过程称为基于内容的音频索引< /a>, 检索，以及计算机科学研究中的指纹。

实现此目的的一种方法是：

对每个音频文件运行多个位的信号处理以提取特征，例如随时间变化的音调、频谱、自相关、动态范围、瞬态等。
将每个音频文件的所有特征放入多维数组中，并转储每个多维数组将
使用优化技术（例如梯度下降）在多维数据数据库中找到给定音频文件的最佳匹配。

使这项工作顺利进行的技巧是选择哪些功能。自动执行此操作并获得良好结果可能很棘手。 Pandora 的人在这方面做得非常好，在我看来，他们拥有最好的相似度匹配。不过，他们通过让人们听音乐并以多种不同的方式对它们进行评分，对向量进行手工编码。请参阅他们的音乐基因组计划和音乐基因组计划属性列表了解更多信息。

对于自动距离测量，有几个项目可以执行类似的操作，包括 marsysas、MusicBrainz 和 EchoNest。

Echonest 拥有我在这个领域见过的最简单的 API 之一。非常容易上手。