第 3 页 - nutch - 文江博客

投稿关注

nutch

文章 73 浏览 79

转储 nutch 中的所有段

我只是想使用readseg从爬行中转储我的段。如果我只有一个文件夹，则该命令 bin/nutch readseg -dump crawl/segments/* dumpFolder 有效，但如果我有多…

人间不值得 2024-12-13 00:56:32 3 0

Nutch 中的句子作为文档

我需要Nutch在保存爬行结果时将网页拆分成句子。原因是 Solr 在索引时将每个句子视为一个文档。我需要的结果是能够搜索“一个单词”并获取包含“一个…

好听的两个字的网名 2024-12-12 10:37:38 2 0

坚果路径错误

你好，我已经在 Ubuntu 上安装了 solr 和 nutch。我偶尔可以进行爬网和索引，但并非总是如此。我反复遇到此路径错误，但在网上找不到解决方案。通常，…

愿与i 2024-12-12 05:39:52 2 0

设置 Nutch 1.3 和 Solr 3.1

我正在尝试让 nutch 1.3 和 solr 3.1 一起工作。注意：我使用的是 Windows 并安装了 Cygwin。我已经安装了 nutch 并进行了基本的爬网（从运行时/本…

友欢 2024-12-11 19:29:14 2 0

在nutch 1.3中如何使用不同的计划爬行重新爬行不同的网站？

我有很多网站；有些内容每月都会变化，有些内容每天都会变化。 nutch 1.3 之前已经抓取过它们，现在我想用不同的计划抓取来重新抓取它们。我怎样才能…

夜唯美灬不弃 2024-12-11 00:48:54 3 0

如何使用java读取segment文件夹上的nutch生成的内容数据

我正在尝试读取段文件夹内的内容数据。我认为内容数据文件是用自定义格式编写的我尝试了nutch的Content 类，但确实如此不认识格式。…

风启觞 2024-12-06 03:21:34 2 0

根据突出显示片段从 Solr 查询中排除重复结果？

场景：我使用 Nutch 和 Solr 为许多网站建立了索引。我已经按网站实现了结果分组。我的结果输出包括页面标题、突出显示片段和 URL。我的问题是许多公…

人间☆小暴躁 2024-12-04 19:52:28 4 0

方法cancel()和方法interrupt()是否做重复的工作？

我阅读了 org.apache.nutch.parse.ParseUtil.runParser(Parser p, Content content) 的源代码。这两个方法调用做同样的事情吗：指令 1： t.interrup…

美羊羊 2024-12-04 14:40:18 6 0

从 nutch 中获取链接

我正在使用 nutch 1.3 来抓取网站。我想要获取已爬网的网址列表以及源自页面的网址。我使用 readdb 命令获取爬网的网址列表。 bin/nutch readdb craw…

_失温 2024-12-04 10:04:47 5 0

Nutch 并将爬网数据保存到 Amazon S3

我正在尝试评估 Nutch/Solr/Hadoop 是否适合我的任务。 PS：之前我尝试将Nutch（1.4）和Hadoop集成起来，看看它是如何工作的。这是我总体上想要实现…

吃兔兔 2024-12-04 07:58:28 3 0

Nutch 抓取错误 - 输入路径不存在

我有 2 个 datanode 服务器的 nutch/hadoop 设置。我尝试抓取一些网址，但 nutch 失败并出现以下错误： Fetcher: segment: crawl/segments Fetcher: o…

盛夏已如深秋| 2024-12-03 22:00:02 4 0

我不知道符号“#”代表什么意思是在nutch的HttpBase.java的以下src中

当我看到nutch的HttpBase.java的src时，我不知道作者描述中的符号“#”是什么意思： // get # of threads already accessing this addr Integer count…

水溶 2024-12-03 20:23:58 2 0

设置 Nutch 1.3 和 Hadoop

我是 Nutch 和 Hadoop 的新手，并尝试按照 http://wiki.apache.org 上的教程进行操作/nutch/NutchHadoopTutorial。所以我开始发布 Nutch 1.3。尽管 …

§对你不离不弃 2024-12-02 13:10:51 2 0

如何编写使用apache nutch 1.3 api爬行网站的java代码？

我想用java和nutch 1.3 api编写一个程序来抓取网站我在网上搜索但没有示例代码我怎样才能做到这一点？谢谢…

眼中杀气 2024-12-02 09:17:11 4 0

坚果爬行路径

我想知道如何使 nutch 不仅爬行我指定的域，还爬行我指定的域内的目录路径。我知道您可以在 regex-urlfilter.txt 上配置此信息…

谜兔 2024-11-30 20:42:08 4 0

共 15 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客