当前位置：文江博客话题详情

fuzzy-search levenshtein-distance string-matching

产品名称模糊匹配

发布于 2024-07-14 16:40:09 字数 677 浏览 17 评论 0原文

我需要自动将来自不同来源的产品名称（相机、笔记本电脑、电视等）与数据库中的规范名称进行匹配。

例如“Canon PowerShot a20IS”、“佳能新款 powershot A20 IS” 和 “数码相机 Canon PS A20IS” 应全部匹配“Canon PowerShot A20 IS”。我使用了编辑距离，并添加了一些启发式方法（删除明显的常用词、为数字更改分配更高的成本等），这在一定程度上有效，但不幸的是还不够好。

主要问题是，即使相关关键字中的单个字母发生变化，也会产生巨大的差异，但要检测哪些是相关关键字并不容易。例如，考虑三个产品名称：
联想T400
联想R400
新款联想 T-400、Core 2 Duo
从任何标准来看，前两个字符串都极其相似（好吧，在这种情况下，soundex 可能有助于区分 T 和 R，但名称也可能是 400T 和 400R），第一个和第三个彼此相距甚远，字符串，但是相同的产品。

显然，匹配算法不可能 100% 精确，我的目标是以高置信度自动匹配大约 80% 的名称。

非常感谢任何想法或参考

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（11）

一生独一 2024-07-21 16:40:10

这正是我在业余时间正在研究的问题。我想出的是：
基于关键字缩小搜索范围：

在这种情况下，您可以有一些层次结构：

类型 --> 公司--> 模型

，以便您匹配
“数码相机”对应的是“佳能”类型

的公司，这样您的搜索范围就会缩小得多。

您可以通过引入产品线等进一步解决这个问题。
但要点是，这可能必须迭代地完成。

回复收藏 0 原文

攀登最高峰 2024-07-21 16:40:10

我们可以使用Datadecision服务来匹配产品。

它将允许您使用统计算法自动匹配您的产品数据。此操作是在定义置信度阈值分数后完成的。

所有无法自动匹配的数据都必须通过专用用户界面手动审核。

在线服务使用查找表来存储同义词以及您的手动匹配历史记录。这使您可以在下次导入新数据时改进数据匹配自动化。

回复收藏 0 原文

高速公鹿 2024-07-21 16:40:10

我过去也做过同样的事情。我所做的是使用NLP方法； TF-IDF 矢量器为每个单词分配权重。例如您的情况：

Canon PowerShot a20IS

Canon --> 权重 = 0.05（不是一个非常有区别的词）
PowerShot --> 权重=0.37（可区分）
a20IS --> 权重 = 0.96（非常有区别）

这将告诉您的模型要关心哪些单词以及不关心哪些单词。感谢 TF-IDF，我的比赛非常顺利。
但请注意：a20IS 无法被识别为 a20 IS，您可以考虑使用某种正则表达式来过滤此类情况。

之后，您可以使用诸如余弦相似度之类的数值计算。

回复收藏 0 原文

小红帽 2024-07-21 16:40:09

我认为这可以归结为区分诸如 Lenovo 之类的关键词与诸如 New 之类的废话。

我会对名称数据库进行一些分析来识别关键词。您可以使用类似于用于生成词云的代码。

然后我会手动编辑列表，删除任何明显的废话，比如也许 New 实际上很常见，但不是关键。

然后您将获得一个可用于帮助识别相似之处的关键词列表。您可以将“原始”名称与其关键字相关联，并在比较两个或多个原始名称的相似性（字面意思是共享关键字的百分比）时使用这些关键字。

无论如何这都不是一个完美的解决方案，但我认为您并不期待这样的解决方案？

回复收藏 0 原文

疧_╮線 2024-07-21 16:40:09

这里的关键理解是你确实有一个适当的距离度量。事实上这根本不是你的问题。你的问题在于分类。

让我举一个例子。假设您有 20 个 Foo X1 条目和 20 个 Foo Y1 条目。您可以放心地假设他们是两组。另一方面，如果您有 39 个条形 X1 条目和 1 个条形 Y1 条目，您应该将它们视为一个组。

现在，距离X1<-> 两个例子中的 Y1 是相同的，那么为什么分类会有差异呢？这是因为 Bar Y1 是异常值，而 Foo Y1 不是。

有趣的是，您实际上不需要做大量工作来预先确定这些组。您只需进行递归分类即可。您从每个组的节点开始，然后为两个最近的节点添加一个超级节点。在超级节点中，存储最佳假设、其子树的大小及其变化。由于许多字符串都是相同的，因此您很快就会得到具有相同条目的大型子树。递归以包含树根的超级节点结束。

现在根据这棵树映射规范名称。您很快就会看到每个都与整个子树匹配。现在，使用这些树之间的距离来选择该条目的距离截止。如果数据库中同时有 Foo X1 和 Foo Y1 产品，则截止距离需要更低才能反映这一点。

回复收藏 0 原文

自此以后，行同陌路 2024-07-21 16:40:09

您可以使用三元组搜索来实现此目的。我必须承认，我从未见过实现索引的算法，但见过它在制药应用中的工作原理，它确实可以很好地处理严重拼写错误的药物名称。您也许可以将相同的逻辑应用于此问题。

回复收藏 0 原文

蓝颜夕 2024-07-21 16:40:09

我认为 edg 的答案是正确的——你需要区分关键词和废话。

背景很重要。举个例子，当查看两个 T400 实例时，Core 2 Duo 是无用的，但当查看一个 CPU OEM 包时则不然。

如果您可以在数据库中标记产品名称规范形式的哪些部分更重要并且必须以一种或另一种形式出现才能识别产品，那么您应该这样做。也许通过使用某种语义标记？您能负担得起让人对数据库进行标记的费用吗？

您可以尝试为“T-400”、“T400”、“T 400”等定义等价类。也许有一组规则说“数字比附加到这些数字的字母绑定更牢固”。

根据制造商、型号等细分案例可能是一个好方法。我建议您查看术语识别技术来尝试实现这一目标：http://www.worldcat .org/isbn/9780262100854

在一个主要由规则驱动的灵活框架中设计所有内容，可以根据您的需求和出现的不良模式（阅读：破坏您的算法的事物）修改规则，这将是一个好主意，以及。这样您就可以根据真实世界的数据来提高系统的性能。

回复收藏 0 原文

巷雨优美回忆 2024-07-21 16:40:09

这是记录链接的问题。 dedupe python 库提供了完整的实现，但即使你不使用 python，文档也有关于如何解决此问题的良好概述。

简而言之，在标准范例中，此任务分为三个阶段比较

字段，在本例中仅比较名称。为此，您可以使用一个或多个比较器，例如编辑距离（如 Levenshtein 距离）或类似余弦距离（用于比较常见单词数量）。
将距离分数的数组转换为一对记录真正关于同一事物的概率
将这些成对概率分数聚类为可能都指同一事物的记录组。

回复收藏 0 原文

独孤求败 2024-07-21 16:40:09

您可能想要创建忽略型号的字母/数字组合的逻辑（因为它们总是非常相似）。

回复收藏 0 原文

调妓 2024-07-21 16:40:09

没有解决此类问题的任何经验，但我认为一个非常幼稚的实现是对搜索词进行标记，并搜索恰好包含任何标记的匹配项。

例如，“Canon PowerShot A20 IS”标记为：

Canon
Powershot
A20
IS

，它将与您想要在结果中显示的每个其他项目相匹配。当然，这种策略也可能会产生大量错误匹配。

另一种策略是为每个项目存储“关键字”，例如“相机”、“佳能”、“数码相机”，并根据具有匹配关键字的项目进行搜索。此外，如果您存储了其他属性，例如制造商、品牌等，则可以对每个属性进行搜索。

回复收藏 0 原文

自演自醉 2024-07-21 16:40:09

我想到了拼写检查算法。

虽然我找不到一个好的示例实现，但我相信您可以修改基本的拼写检查算法来得到满意的结果。即以单词而不是字符为单位进行工作。

留在我记忆中的点点滴滴：

剔除所有常用词（a、an、the、new）。什么是“常见”取决于上下文。
取每个单词的第一个字母及其长度，并将其作为单词键。
当出现可疑词时，查找具有相同或相似词键的词。

它可能不能直接解决您的问题...但您说您正在寻找想法，对吧？

:-)

回复收藏 0 原文

~没有更多了~

关于作者

许一世地老天荒

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文