如何在 nutch 中索引文件名(和其他文件元数据)?

发布于 2025-01-04 06:20:12 字数 165 浏览 4 评论 0原文

看起来 nutch 索引仅(某些)解析结果。它运行索引过滤器来确定索引的内容。

这些索引过滤器获取解析结果作为参数。

如何实现文件名和其他文件元数据(例如所有者)被索引?

当然,我需要添加一个索引过滤器,但是我是否还必须添加一个解析器来解析所有文件类型并获取其元数据?

It seems like nutch indexes only (some) parse results. It runs the indexing filters which detremine what is indexed.

These indexing filters get a Parse result as a parameter.

How can I achieve file names and other file metadata like owner being indexed?

Of course I need to add an indexing filter, but to do I also have to add a parser for parsing all filetypes and getting their metadata?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

柠檬色的秋千 2025-01-11 06:20:12

详细信息(文件名、所有者)已由代码处理,但我认为您需要对解析器进行轻微修改才能存储这些详细信息

The details (file names, owner) will already be handled by code but i think that you need to do slight modification to parsers to store those details

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文