nutch

nutch

文章 73 浏览 79

转储 nutch 中的所有段

我只是想使用readseg从爬行中转储我的段。如果我只有一个文件夹,则该命令 bin/nutch readseg -dump crawl/segments/* dumpFolder 有效,但如果我有多…

人间不值得 2024-12-13 00:56:32 3 0

Nutch 中的句子作为文档

我需要Nutch在保存爬行结果时将网页拆分成句子。原因是 Solr 在索引时将每个句子视为一个文档。 我需要的结果是能够搜索“一个单词”并获取包含“一个…

好听的两个字的网名 2024-12-12 10:37:38 2 0

坚果路径错误

你好,我已经在 Ubuntu 上安装了 solr 和 nutch。我偶尔可以进行爬网和索引,但并非总是如此。我反复遇到此路径错误,但在网上找不到解决方案。通常,…

愿与i 2024-12-12 05:39:52 2 0

设置 Nutch 1.3 和 Solr 3.1

我正在尝试让 nutch 1.3 和 solr 3.1 一起工作。 注意:我使用的是 Windows 并安装了 Cygwin。 我已经安装了 nutch 并进行了基本的爬网(从运行时/本…

友欢 2024-12-11 19:29:14 2 0

在nutch 1.3中如何使用不同的计划爬行重新爬行不同的网站?

我有很多网站;有些内容每月都会变化,有些内容每天都会变化。 nutch 1.3 之前已经抓取过它们,现在我想用不同的计划抓取来重新抓取它们。 我怎样才能…

夜唯美灬不弃 2024-12-11 00:48:54 3 0

如何使用java读取segment文件夹上的nutch生成的内容数据

我正在尝试读取段文件夹内的内容数据。我认为内容数据文件是用自定义 格式 编写的 我尝试了nutch的Content 类,但确实如此不认识 格式。…

风启觞 2024-12-06 03:21:34 2 0

根据突出显示片段从 Solr 查询中排除重复结果?

场景: 我使用 Nutch 和 Solr 为许多网站建立了索引。我已经按网站实现了结果分组。我的结果输出包括页面标题、突出显示片段和 URL。我的问题是许多公…

人间☆小暴躁 2024-12-04 19:52:28 4 0

方法cancel()和方法interrupt()是否做重复的工作?

我阅读了 org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content) 的源代码。 这两个方法调用做同样的事情吗: 指令 1: t.interrup…

美羊羊 2024-12-04 14:40:18 6 0

从 nutch 中获取链接

我正在使用 nutch 1.3 来抓取网站。我想要获取已爬网的网址列表以及源自页面的网址。 我使用 readdb 命令获取爬网的网址列表。 bin/nutch readdb craw…

_失温 2024-12-04 10:04:47 5 0

Nutch 并将爬网数据保存到 Amazon S3

我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。 PS:之前我尝试将Nutch(1.4)和Hadoop集成起来,看看它是如何工作的。 这是我总体上想要实现…

吃兔兔 2024-12-04 07:58:28 3 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址,但 nutch 失败并出现以下错误: Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 4 0

我不知道符号“#”代表什么意思是在nutch的HttpBase.java的以下src中

当我看到nutch的HttpBase.java的src时,我不知道作者描述中的符号“#”是什么意思: // get # of threads already accessing this addr Integer count…

水溶 2024-12-03 20:23:58 2 0

设置 Nutch 1.3 和 Hadoop

我是 Nutch 和 Hadoop 的新手,并尝试按照 http://wiki.apache.org 上的教程进行操作/nutch/NutchHadoopTutorial。 所以我开始发布 Nutch 1.3。 尽管 …

§对你不离不弃 2024-12-02 13:10:51 2 0

如何编写使用apache nutch 1.3 api爬行网站的java代码?

我想用java和nutch 1.3 api编写一个程序来抓取网站 我在网上搜索但没有示例代码 我怎样才能做到这一点? 谢谢…

眼中杀气 2024-12-02 09:17:11 4 0

坚果爬行路径

我想知道如何使 nutch 不仅爬行我指定的域,还爬行我指定的域内的目录路径。我知道您可以在 regex-urlfilter.txt 上配置此信息…

谜兔 2024-11-30 20:42:08 4 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文