当前位置：文江博客话题详情

使用通配符（GLOB）支持搜索数百万个文件名的更好方法是什么

发布于 2024-08-20 08:20:16 字数 494 浏览 11 评论 0原文

我正在开发一个小型搜索引擎来显示带有完整路径的匹配文件名。重要的是我需要提供通配符（GLOB）搜索，例如 *.doc 或 *list*.xlx 或 *timesheet* 或???.doc 或类似的东西。

我找到了一些相关的解决方案

搜索与模式“abc:*:xyz”的时间小于 O(n)

但我正在寻找有效的算法，可以在不到一秒的时间内找到百万个文件名中的匹配项，因此比 O(n) 更好必需..

我正在考虑两阶段算法，在第一阶段进行子字符串数组（后缀数组+前缀数组）搜索，并通过第一阶段第二阶段的结果进行正常的正则表达式搜索。

任何帮助将不胜感激...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

二手情话 2024-08-27 08:20:16

据我所知，对于广义全局搜索来说，没有比 O(n) 更好的方法了。

然而，对于前缀和后缀搜索的特殊情况，您可以自己创建排序索引来执行二分搜索，从而导致前缀和后缀搜索的 O(log n) 。前缀索引将根据第一个字符排序，然后是第二个字符，依此类推。后缀索引将根据最后一个字符排序，然后是倒数第二个字符，依此类推（反向字符串）。

我会按照您在帖子中建议的那样进行搜索，分两个阶段进行搜索，搜索前缀或后缀索引，然后使用由 glob 生成的正则表达式对第一阶段提供的简化列表进行强力搜索。

由于字符串长度比较比正则表达式更快，因此我还会预过滤 ???.doc 示例的最小匹配字符串长度或固定长度匹配字符串。

从原始帖子的声音来看，索引还需要引用每个条目的完整路径，以便您可以在找到最终结果后显示它。

回复收藏 0 原文

赢得她心 2024-08-27 08:20:16

查看自索引：此堆栈溢出问题，以及这篇 DrDobbs 文章。

回复收藏 0 原文

~没有更多了~

关于作者

倒数

暂无简介

0 文章

0 评论

25 人气

关注发私信

友情链接

文江博客

使用通配符（GLOB）支持搜索数百万个文件名的更好方法是什么

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

使用通配符（GLOB）支持搜索数百万个文件名的更好方法是什么

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。