当前位置：文江博客话题详情

Apache Nutch 仅索引部分页面内容

发布于 2024-11-19 07:23:44 字数 371 浏览 5 评论 0原文

将使用 Apache Nutch v1.3 从网页中仅提取一些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我需要仅提取网页上和 elemetns 内的文本。如果提取的文本保存到不同的字段中（例如 content_xxx、content_yyy），那就太好了。我的问题是：我应该编写自己的插件还是可以使用某种标准方式来完成？

最好的方法是在规范化的网页上应用 XSLT 并得到结果。这可能吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

烧了回忆取暖 2024-11-26 07:23:44

构建您自己的 ParsingFilter 和 IndexingFilter 很容易。 Nutch 为你提供了 DOM 文档，你只需要遍历并搜索你的 div 即可。然后，您只需将新字段添加到索引和架构中即可完成。

有一些关于如何执行此操作的示例：

http://wiki.apache.org/nutch/HowToMakeCustomSearch

http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html

祝你好运

回复收藏 0 原文

温柔戏命师 2024-11-26 07:23:44

默认情况下，解析后内容是扁平的。
所以我不认为你可以做你想做的事，除非你可以在索引步骤中提取你的内容，即一旦内容被展平。

回复收藏 0 原文

画尸师 2024-11-26 07:23:44

除了编写自己的插件之外，您还可以使用这些自定义插件，这些插件可以配置为提取部分页面：

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文