当前位置：文江博客话题详情

音乐识别与信号处理

发布于 2024-08-17 13:08:07 字数 887 浏览 12 评论 0原文

我想构建类似于 Tunatic 或 Midomi（如果您不确定它们的作用，请尝试一下），我想知道我必须使用什么算法；我对此类应用程序的工作原理的想法是这样的：

拥有一个大数据库，
其中每首歌曲都有几首歌曲 1. 降低质量/比特率（例如至 64kbps）并计算声音“哈希”
具有您想要
在3中识别歌曲的音乐的声音/摘录。降低质量/比特率（再次至64kbps）并计算声音“哈希”
如果 4.声音哈希值处于2.声音哈希值中的任何一个中，

我认为由于环境噪音和编码差异而降低了质量/比特率，所以声音哈希值返回匹配的音乐。

我的方向正确吗？任何人都可以为我提供任何具体文档或示例吗？ Midori 似乎甚至能认出嗡嗡声，这真是太令人印象深刻了！他们是怎么做到的？

声音哈希是否存在或者是我刚刚编造的东西？如果有的话，我该如何计算它们？更重要的是，如何检查child-hash是否在father-hash中？

我将如何使用 Python（可能是内置模块）或 PHP 构建类似的系统？

一些示例（最好是 Python 或 PHP 的）将不胜感激。提前致谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

执笔绘流年 2024-08-24 13:08:07

我从事音乐信息检索（MIR）方面的研究。关于音乐指纹识别的开创性论文是 Haitsma 和 Kalker 在 2002 年 3 月左右发表的论文。谷歌应该可以帮你找到。

我读过一份早期（非常早；2000 年之前）关于 Shazam 方法的白皮书。那时，他们基本上只是检测到光谱时间峰值，然后对峰值进行哈希处理。我确信该程序已经发展。

这两种方法都解决了信号级别的音乐相似性，即它对环境失真具有鲁棒性。我认为它对于嗡嗡声查询（QBH）效果不佳。然而，这是一个不同的（但相关的）问题，具有不同的（但相关的）解决方案，因此您可以在文献中找到解决方案。（数量太多，无法在此一一列举。）

ISMIR 会议记录可在网上免费获取。您可以在那里找到有价值的东西：http://www.ismir.net/

我同意使用现有的库就像玛尔西亚斯一样。取决于你想要什么。我认为 Numpy/Scipy 在这里是不可或缺的。简单的东西可以自己用 Python 编写。哎呀，如果你需要 STFT、MFCC 之类的东西，我可以通过电子邮件给你发送代码。

回复收藏 0 原文

↘紸啶 2024-08-24 13:08:07

我致力于一个很酷的框架的外围工作，该框架实现了多种音乐信息检索技术。我算不上专家（编辑：实际上我离专家还差得很远，只是为了澄清一下），但我可以看出，快速傅里叶变换在这些东西中随处可见。傅里叶分析很古怪，但它的应用却非常简单。基本上，当您在频域而不是时域中分析音频时，您可以获得大量有关音频的信息。这就是傅里叶分析为您提供的。

这可能与您想做的事情有点偏离主题。无论如何，项目中有一些很酷的工具可以使用，以及查看核心库本身的源代码：http ://marsyas.sness.net

回复收藏 0 原文

疯到世界奔溃 2024-08-24 13:08:07

我最近将基于音频地标的指纹识别系统移植到 Python：

https://github.com/dpwe/audfprint

它可以从包含数十或数千个曲目的参考数据库中识别小段（5-10 秒）摘录，并且对噪声和通道失真具有很强的鲁棒性。它使用局部光谱峰值的组合，类似于 Shazam 系统。

这只能匹配完全相同的曲目，因为它依赖于频率和时间差异的精细细节 - 它甚至不能匹配不同的镜头，当然不能覆盖版本或嗡嗡声。据我了解，Midomi/SoundHound 的工作原理是相互匹配嗡嗡声（例如通过动态时间扭曲），然后在嗡嗡声组和预期的音乐曲目之间有一组人工策划的链接。

将哼唱直接与音乐曲目匹配（“哼唱查询”）是音乐信息检索中一个正在进行的研究问题，但仍然相当困难。您可以在 MIREX 2013 上查看去年评估的一组系统的摘要QBSH 结果。

回复收藏 0 原文

夏末 2024-08-24 13:08:07

从音乐中提取的 MFCC 对于查找歌曲之间的音色相似性非常有用。这最常用于查找相似的歌曲。正如 darren 所指出的，Marsyas 是一个可以用来提取 MFCC 并通过将 MFCC 转换为单个向量表示来查找相似歌曲的工具。

除了 MFCC，Rhythm 也可用于查找歌曲相似度。很少有论文Mirex 2009 中介绍

的内容将为您提供良好的概述对检测音乐相似性最有帮助的不同算法和功能。

回复收藏 0 原文

往事随风而去 2024-08-24 13:08:07

MusicBrainz 项目维护着这样一个数据库。您可以根据指纹对其进行查询。

该项目已经存在一段时间了，并且过去使用过不同的指纹。请参阅此处查看列表。

他们使用的最新指纹是 AcoustId。有 Chromaprint 库（也带有 Python 绑定），您可以在其中创建此类指纹。您必须向其提供原始 PCM 数据。

我最近用 Python 编写了一个库，它可以进行解码（使用 FFmpeg），并提供生成 AcoustId 指纹（使用 Chromaprint）和其他功能（还可以通过 PortAudio 播放流）等功能。请参阅此处。

回复收藏 0 原文

墨落画卷 2024-08-24 13:08:07

自从我上次进行信号处理以来已经有一段时间了，但您应该查看频域表示（例如 FFT 或 DCT），而不是下采样。然后，您可以进行某种哈希并搜索包含该序列的数据库歌曲。

棘手的部分是如何快速进行搜索（也许一些关于基因搜索的论文可能会感兴趣）。我怀疑 iTunes 也会对乐器进行一些检测以缩小搜索范围。

回复收藏 0 原文

匿名。 2024-08-24 13:08:07

我确实读过一篇关于某种音乐信息检索服务（未提及名称）的方法的论文 - 通过计算音频样本的短时傅里叶变换。然后，该算法挑选出频域中的“峰值”，即振幅特别高的时间位置和频率，并使用这些峰值的时间和频率来生成散列。令人惊讶的是，该哈希值在不同样本之间几乎没有冲突，而且还可以承受峰值信息约 50% 的数据丢失......

回复收藏 0 原文