如何使用 Perl 对平面文件进行全文搜索？

发布于 2024-07-14 18:38:01 字数 327 浏览 7 评论 0原文

我们有一个基于 Perl 的 Web 应用程序，其数据源自大量平面文本文件存储库。这些平面文件被放置到我们系统上的一个目录中，我们广泛地解析它们，将一些信息插入到 MySQL 数据库中，然后将这些文件移动到它们的存档存储库和永久主目录 (/www/website/archive/*.txt)。现在，我们不会解析这些平面文件中的每一个数据位，并且一些更模糊的数据项不会被数据库化。

当前的要求是用户能够从 Perl 生成的网页对整个平面文件存储库执行全文搜索，并返回一个命中列表，然后他们可以单击并打开文本文件来查找审查。

实现这种搜索功能的最优雅、最高效且非 CPU 密集型方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

糖粟与秋泊 2024-07-21 18:38:01

我建议按以下顺序：

将每个文档的全部内容放入 MySQL 表中，并使用 MySQL 的全文搜索和索引功能。我从来没有这样做过，但 MySQL 总是能够处理比我能处理的更多的事情。
Swish-E 仍然存在并被设计用于构建全文索引并允许对结果进行排名。我已经运行它几年了，它运行得很好。
您可以在 Perl 代码中使用 File::Find 来像 grep -r 一样浏览存储库，但与上面的索引选项之一相比，它会很糟糕。但是，它会起作用，甚至可能会让您感到惊讶:)

回复收藏 0 原文

半山落雨半山空 2024-07-21 18:38:01

我建议使用专用的搜索引擎来进行索引和搜索。

我最近没有看过搜索引擎，但几年前我使用过 ht://dig，并对结果感到满意。

更新：目前看来 ht://dig 是一个僵尸项目。您可能想使用其他引擎。 Hyper Estraier，除了难以发音之外，看起来很有前途。

回复收藏 0 原文

一腔孤↑勇 2024-07-21 18:38:01

我赞同添加索引机的建议。考虑 http://namazu.org 中的 Namazu。当我需要它时，它看起来比 Swish-e、ht://dig 更容易上手，我对此非常满意。

如果您不想要索引器的开销，请考虑分叉 grep/egrep。一旦文本量达到数兆字节，这将比仅在 Perl 中扫描要快得多，例如：

open GREP, "find $dirlist -name '$filepattern' | xargs egrep '$textpattern' |"
                                         or die    "grep: $!";
while (<GREP>)  {
       ...
}

额外的好处：使用日期/标签等文件名约定来减少 grep 的文件集。
笨重的查找... | xargs ... 旨在解决通配符扩展的 shell 大小限制，您可能会遇到大档案。

I second the recommendation to add an indexing machine. Consider Namazu from http://namazu.org. When I needed it, it looked easier to get started than Swish-e, ht://dig and I'm quite content with it.

If you don't want the overhead of an indexer, look at forking a grep/egrep. Once the text volume goes to multi-megabytes, this will be significantly faster than scanning solely in Perl, e.g:

open GREP, "find $dirlist -name '$filepattern' | xargs egrep '$textpattern' |"
                                         or die    "grep: $!";
while (<GREP>)  {
       ...
}

Bonus: use file name conventions like dates/tags/etc to reduce the set of files to grep.
The clunky find ... | xargs ... is meant to work around the shell size limits on wildcard expansion which you might hit with big archives.

回复收藏 0 原文