当前位置：文江博客话题详情

从连续麦克风流中实时识别非语音、非音乐声音

发布于 2024-12-18 03:38:06 字数 603 浏览 2 评论 0原文

我希望记录与特定声音相对应的事件，例如车门关上的声音，或者烤面包机吐司的声音。

该系统需要比“噪音检测器”更复杂；它需要能够区分特定的声音和其他响亮的噪音。

识别不需要是零延迟，但处理器需要跟上来自始终打开的麦克风的连续传入数据流。

这项任务与语音识别有显着不同吗？或者我可以利用语音识别库/工具包来识别这些非语音吗？
鉴于我只需要匹配一种声音（而不是在声音库之间进行匹配）的要求，我可以做任何特殊的优化吗？

此答案表示匹配的过滤器是合适的，但我对细节很模糊。由于目标声音的变化，我认为目标声音样本和麦克风流之间的音频波形数据的简单互相关不会有效。

我的问题也类似于this，但没有得到太多注意力。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

指尖微凉心微凉 2024-12-25 03:38:06

我发现了一篇关于该主题的有趣论文

车辆声音特征识别
频率矢量主成分分析，作者：Huadong Wu、Mel Siegel 和 Pradeep Khosla（IEEE Transactions on Instrumentation andMeasurement，第 48 卷，第 5 期，1999 年 10 月）
）

它也应该适用于您的应用程序，即使不比车辆声音更好。

分析训练数据时，它...

采集 200ms 的样本
对每个样本进行傅立叶变换 (FFT)
执行频率向量的主成分分析
- 计算此类所有样本的平均值
- 从样本中减去平均值
- 计算平均协方差矩阵的特征向量（每个向量与其自身的外积的平均值）
- 存储平均值和最重要的特征向量。

然后，为了对声音进行分类，它...

采集 200 毫秒 (S) 的样本。
对每个样本进行傅里叶变换。
从频率向量 (F) 中减去类别的平均值 (C)。
将频率向量与 C 的每个特征向量相乘，给出每个特征向量的数字。
从 F 中减去每个数字与相应特征向量的乘积。
获取结果向量的长度。
如果该值低于某个常数，则 S 被认为属于 C 类。

回复收藏 0 原文

栖竹 2024-12-25 03:38:06

本博士论文，非语音环境用于自主监视的声音分类系统，作者：Cowling (2004)，有实验结果关于音频特征提取和分类的不同技术。他使用环境声音，例如叮当作响的钥匙声和脚步声，能够达到 70% 的准确率：

发现最好的技术是连续小波变换
使用动态时间规整或梅尔频率倒谱进行特征提取
动态时间扭曲系数。这两种技术
识别率达到70%。

如果你限制自己只听一种声音，或许你能达到更高的识别率？

作者还提到，在语音识别（学习矢量量化和神经网络）方面效果很好的技术在环境声音方面效果不佳。

我还在这里找到了一篇更新的文章：检测语义视频搜索的音频事件，作者：Bugalho 等人。（2009），他们检测电影中的声音事件（如枪声、爆炸等）。

我没有这方面的经验。我只是因为你的问题引起了我的兴趣而偶然发现了这份材料。我将我的发现发布在这里，希望对您的研究有所帮助。

回复收藏 0 原文

~没有更多了~

关于作者

早茶月光

暂无简介

文章

26 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

从连续麦克风流中实时识别非语音、非音乐声音

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

从连续麦克风流中实时识别非语音、非音乐声音

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。