多尺度定向梯度直方图(均值漂移?)

发布于 2024-11-04 22:00:43 字数 285 浏览 0 评论 0原文

我正在研究 HOG 描述符,除了检测窗口的融合之外,我几乎完成了大部分部分。

到目前为止我所做的是;我构建了图像的尺度空间金字塔,对于每个尺度上的每个图像,我移动检测窗口(64x128)并检测人类。在每幅图像中,一个人被多个窗口检测到。

所以问题是如何将所有这些窗口(假设一个人)融合到一个窗口中。 Dalal 建议人们应该使用一种强大的 mod 检测算法,例如均值漂移。但是,我有多个尺度...我是否应该首先估计在尺度空间的较低级别中找到的检测窗口的真实位置才能做到这一点?

任何帮助表示赞赏。 提前致谢。

I am working on HOG descriptors and I am pretty much done with most of the parts, except the fusion of the detection windows.

What I have done so far is; I build a scale space pyramid of the image and for each image on each scale I move the detection window(64x128) and detect humans. In each image a person is detected by more than one window.

So the question is how to fuse all these windows(assume for one person) into one window. Dalal suggests that one should use a robust mod detection algorithm, such as mean-shift. But, I have multiple scales... Should I first estimate the true location of the detection window found in lower levels of the scale space in order to do that?

Any help is appreciated.
Thanks in advance.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

冰葑 2024-11-11 22:00:43

我的解释是,均值漂移实际上会给你所建议的内容。

本质上,您首先根据检测器输出的强度以最粗略的尺度估计人的位置的概率分布。这可以为您提供稳健的模式估计。

然后,您可以使用最大值或众数周围的更精细尺度进行迭代细化。

例如,这个想法与金字塔 LK 跟踪中使用的非常相似。您还可以进行集成处理和/或粒子滤波器。

My interpretation is that mean shift would give you in effect what you are suggesting.

Essentially, you estimate the probability distribution of the location of the person at the coarsest scale first based upon the strengths of the detector outputs. This gives you a robust estimate of mode.

You can then iteratively refine using the finer scales around the maximum or the mode.

The idea is very similar that used in pyramidal LK tracking, for example. You can also do ensemble processing and/or particle filters.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文