当前位置：文江博客话题详情

algorithm levenshtein-distance data-mining text-mining classification

URL路径相似度/字符串相似度算法

发布于 2024-12-10 07:48:39 字数 586 浏览 10 评论 0原文

我的问题是我需要比较 URL 路径并推断它们是否相似。下面我提供了要处理的示例数据：

# GROUP 1
/robots.txt

# GROUP 2
/bot.html

# GROUP 3
/phpMyAdmin-2.5.6-rc1/scripts/setup.php
/phpMyAdmin-2.5.6-rc2/scripts/setup.php
/phpMyAdmin-2.5.6/scripts/setup.php
/phpMyAdmin-2.5.7-pl1/scripts/setup.php
/phpMyAdmin-2.5.7/scripts/setup.php
/phpMyAdmin-2.6.0-alpha/scripts/setup.php
/phpMyAdmin-2.6.0-alpha2/scripts/setup.php

# GROUP 4
//phpMyAdmin/

我尝试了 Levenshtein 距离进行比较，但对我来说不够准确。我不需要100%准确的算法，但我认为90%及以上是必须的。

我认为我需要某种分类器，但问题是新数据的每个部分都可以包含应分类到新的未知类的路径。

你能引导我正确的想法吗？

谢谢

My problem is that I need to compare URL paths and deduce if they are similar. Below I provide example data to process:

# GROUP 1
/robots.txt

# GROUP 2
/bot.html

# GROUP 3
/phpMyAdmin-2.5.6-rc1/scripts/setup.php
/phpMyAdmin-2.5.6-rc2/scripts/setup.php
/phpMyAdmin-2.5.6/scripts/setup.php
/phpMyAdmin-2.5.7-pl1/scripts/setup.php
/phpMyAdmin-2.5.7/scripts/setup.php
/phpMyAdmin-2.6.0-alpha/scripts/setup.php
/phpMyAdmin-2.6.0-alpha2/scripts/setup.php

# GROUP 4
//phpMyAdmin/

I tried Levenshtein distance to compare, but for me is not enough accurate. I do not need 100% accurate algorithm, but I think 90% and above is a must.

I think that I need some sort of classifier, but the problem is that each portion of new data can containt path that should be classified to the new unknown class.

Could you please direct me to the right thoutht?

Thanks

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

╄→承喏 2024-12-17 07:48:40

我知道这不是您问题的确切答案，但您熟悉 k-means算法？

我想即使是 Levenshtein 也可以在这里工作，但困难在于如何用这种方法计算质心。

也许您可以将输入集划分为不相交的子集，然后为每个子集中的每个 URL 计算到同一子集中的所有其他 URL 的距离，距离总和最小的 URL 应该是质心（当然，这取决于输入集有多大；对于巨大的集合，这样做可能不是一个好主意）。

k 均值的好处是您可以从绝对随机划分开始，然后迭代地使其变得更好。

k 均值的缺点是您必须在开始之前精确 k。然而，在运行过程中（也许在前几次迭代后情况稳定下来），您可以测量每个集合的内部相似性，如果它很低，您可以将集合划分为两个子集并继续使用相同的算法。

回复收藏 0 原文

羁〃客ぐ 2024-12-17 07:48:39

编辑距离是最佳选择，但需要调整距离。您必须在标记（单词和数字）上使用加权编辑距离和可能的分割路径。因此，例如像“2.5.6-rc2 和 2.5.6”这样的版本可以被视为 0 权重差异，但像 phpMyAdmin 和 javaMyAdmin 这样的名称令牌给出 1 权重差异。

回复收藏 0 原文

素手挽清风 2024-12-17 07:48:39

在检查@jakub.gieryluk的建议时，我意外地找到了令我满意的解决方案——“Hobohm聚类算法，最初是为了减少生物序列数据集的冗余而设计的。”

Bruno Vecchi 实现的 PERL 库测试给了我非常好的结果。唯一的问题是我需要Python实现，但我相信我可以在互联网上找到一个或者自己重新实现代码。

接下来的事情是，我还没有检查该算法的主动学习能力；）

回复收藏 0 原文

~没有更多了~

关于作者

能否归途做我良人

暂无简介

文章

评论

669 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

眼泪淡了忧伤

文章 0 评论 0

corot39

文章 0 评论 0

守护在此方

文章 0 评论 0

github_3h15MP3i7

文章 0 评论 0

相思故

文章 0 评论 0

滥情空心

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文