nutch

nutch

文章 73 浏览 79

使用作业文件运行时,Apache Nutch不读取新的配置文件

我已经配置了Apache Nutch 1.x用于网络爬行。有一个要求,我应该为每个域中的索尔尔文档添加一些额外信息。配置是一个JSON文件。我已经为此开发了遵循…

夏日浅笑〃 2025-02-06 20:09:22 3 0

nutch在EMR中用于原始数据的持续存储的最佳选择

我必须在EMR AWS服务上使用Nutch 1.x爬到30k至50k域。它将是逐渐的,即首先爬行所有页面,后来仅用于这些网站的新页面或更新的页面。 对于索引,我正…

叫思念不要吵 2025-01-26 21:49:44 3 0

Nutch-Cygwin 如何设置JAVA_HOME

我正在尝试使用 Cygwin 运行 Nutch。我在设置 JAVA_HOME 时遇到问题。 $ export JAVA_HOME='/cygdrive/f/program files/java/jdk1.6.0_21' 当我运行 n…

↘紸啶 2025-01-07 16:13:59 6 0

从 perl 调用 system() 或 IPC::Run3 命令似乎没有传递环境变量 ($ENV{JAVA_HOME})

我一直在努力从 perl 启动 java 进程。问题的根源是java进程缺少JAVA_HOME环境变量导致ClassNotFoundException。 我开始使用 IPC::Run3 因为它相对优…

空心空情空意 2025-01-06 04:39:02 3 0

使用 nutch 爬行时出现 IOException

在用 nutch(1.4) 爬行了一天之后......最后我得到了以下异常的坏坏: . . . -finishing thread FetcherThread, activeThreads=0 -activeThreads=0, sp…

⊕婉儿 2025-01-06 03:42:37 6 0

如何使用任何过滤选项搜索记录 Solr?

我将 apache-nutch-1.4 与 apache-solr-3.2.0 一起使用。我能够成功安装并集成两者。 当我搜索单词'Disease'时,它会给出带有标题、内容和URL等字段的…

蓝海似她心 2025-01-04 22:23:36 5 0

Nutch Recrawl - 存储段是否必要

我在片段被索引后删除它们,那么在重新爬网时,nutch 如何获得页面的最后获取时间?我需要存储它们以加速重新爬网吗?…

凉栀 2025-01-04 10:55:36 3 0

如何在 nutch 中索引文件名(和其他文件元数据)?

看起来 nutch 索引仅(某些)解析结果。它运行索引过滤器来确定索引的内容。 这些索引过滤器获取解析结果作为参数。 如何实现文件名和其他文件元数据…

淡淡の花香 2025-01-04 06:20:12 4 0

在 nutch 插件中使用 tika

简而言之,我正在实现一个插件,它将获取网页内容并以特殊方式处理它们。 我的主要问题是我想将网页转换为纯文本以便能够处理,我读到tika工具包可以…

醉酒的小男人 2025-01-03 08:52:40 4 0

使用Nutch爬取指定URL列表

我有一百万个 URL 列表需要获取。我使用这个列表作为 nutch 种子,并使用 Nutch 的基本 crawl 命令来获取它们。但是,我发现 Nutch 会自动获取不在列…

辞别 2025-01-02 12:52:32 2 0

为什么 nutch 不抓取非英语网站中的所有链接?

我用nutch 1.4抓取一个网站,我知道nutch不会抓取该网站中的所有链接。我没有过滤器,也没有限制规则来爬行。例如,nutch 永远不会抓取此链接: http:…

时光礼记 2024-12-31 21:05:07 5 0

获取页面内容,格式与 nutch 中一样

简而言之,我正在寻找一种方法来将页面内容按原样格式化(包含行、新行和段落)。 接下来的代码没有帮助,因为它删除了页面的所有格式。 Parse parse …

锦爱 2024-12-29 17:44:42 6 0

Nutch:获取每个网址的种子网址

我尝试将Nutch配置为图像爬虫,并且已经可以在爬行后获取图像url。 现在,我想获取每个图像网址的种子网址,我该怎么做? 谢谢你!…

世界等同你 2024-12-29 14:42:28 4 0

Nutch 如何避免抓取CGI生成的日历网页

我正在使用 Nutch 抓取一个大型网站。 网页是由CGI程序生成的。大多数网页的 URL 都包含诸如 ?id=2323&title=foo 之类的表达式。 我想抓取这些网页,…

可爱暴击 2024-12-29 09:34:22 4 0

无法在 Nutch 部署模式下运行 fetcher 作业

我已在 Ubuntu 11.10 系统上使用本地模式成功运行 Nutch (v1.4) 进行爬网。但是,当切换到“部署”模式时(其他一切都相同),我在获取周期期间收到错…

远昼 2024-12-28 21:05:42 5 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文