当前位置：文江博客话题详情

Google Shopper 中的图像识别是如何工作的？

发布于 2024-09-19 21:35:31 字数 104 浏览 8 评论 0原文

我对这个软件的运行效果（和速度）感到惊讶。我在昏暗的灯光下将手机摄像头悬停在书籍封面的一小块区域上，Google Shopper 只需几秒钟就可以识别它。这几乎是神奇的。有谁知道它是如何工作的？

需要登录才能够评论，你可以免费注册一个本站的账号。

猫七 2024-09-26 21:35:31

我不知道 Google Shopper实际上是如何工作的。但它可以像这样工作：

获取图像并转换为边缘（使用边缘过滤器，保留颜色信息）。
找到边缘相交的点并列出它们（包括颜色和相交边缘的角度）。
通过选择成对的高对比度点并测量它们之间的距离，转换为与旋转无关的度量。现在书的封面被表示为一堆数字：(edgecolor1a,edgecolor1b,edgecolor2a,edgecolor2b,distance)。
选择最显着的距离值对并对距离进行比率。
将此数据作为查询字符串发送到 Google，在那里它会找到最相似的向量（可能使用直接最近邻计算，或者可能使用经过适当训练的分类器（可能是支持向量机）。

Google Shopper 还可以发送整个图片，此时 Google 可以使用功能更强大的处理器来处理图像处理数据，这意味着它可以使用更复杂的预处理（我选择上述步骤非常简单，以便可以在智能手机上使用）。

无论如何，一般步骤很可能是（1）提取尺度和旋转不变特征，（2）将该特征向量与预先计算的特征库进行匹配。

流年已逝 2024-09-26 21:35:31

无论如何，模式识别/机器学习方法通常基于：

从图像中提取可以描述为数字的特征。例如，使用边缘（如 Rex Kerr 之前解释的那样）、颜色、纹理等。描述或表示图像的一组数字称为“特征向量”，有时称为“描述符”。提取图像的“特征向量”后，可以使用距离或（不）相似度函数来比较图像。
从图像中提取文本。有多种方法可以做到这一点，通常基于 OCR（光学字符识别）
使用特征和文本对数据库进行搜索，以找到最接近的相关产品。
图像也可能被切割成子图像，因为算法经常在图像上找到特定的徽标。
在我看来，图像特征被发送到不同模式分类器（能够使用特征向量作为输入来预测“类”的算法），以便识别徽标，然后，产品本身。
使用这种方法，它可以是：本地、远程或混合。如果是本地的，则所有处理都在设备上进行，仅将“特征向量”和“文本”发送到数据库所在的服务器。如果是远程，整个图像将发送到服务器。如果是混合的（我认为这是最有可能的），部分在本地执行，部分在服务器上执行。
另一个有趣的软件是 Google Googles，它使用 CBIR（基于内容的图像检索）来搜索与智能手机拍摄的照片相关的其他图像。它与 Shopper 解决的问题相关。