nutch

nutch

文章 73 浏览 79

通过网络爬取创建数据集

我想构建一个由大约 2000-3000 个网页组成的数据集,从几个种子 URL 开始。我尝试使用 Nutch 爬虫,但无法完成(无法将获取的“分段”数据转换为 html…

那伤。 2024-12-28 11:10:41 5 0

螺母安装

searcher.dir your_crawl_folder_here For example, if your nutch directory resides at C:\nutch-0.9.0 and you specified crawl as the directory…

少女情怀诗 2024-12-28 09:08:48 7 0

如何记录 nutch 插件的执行

我正在努力构建具有特殊要求的自定义 nutch 插件。 我发现 hadoop.log 中提到了我的插件,但它不相关。 我在代码的不同位置添加了 LOG.debug("test") …

困倦 2024-12-27 16:35:51 2 0

nutch 无法成功解析内容

我尝试使用 nutch 1.4 进行爬网,但我在解析时遇到错误,这是日志文件: 2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting…

飞烟轻若梦 2024-12-26 02:16:59 0 0

使用CrawlDbReader读取Nutch爬行数据

我正在使用nutch 1.4来实现一个专注的爬虫。谁能告诉我如何在我的 JSP 程序中使用 nutch CrawlDbReader、LinkDbReader 和 SegmentReader API 以便我可…

逆流 2024-12-25 19:18:08 3 0

海量数据如何产生?

我正在使用 nutch 和 hadoop 进行一些测试,我需要大量数据。 我想从 20GB 开始,逐渐增加到 100GB、500GB,最终达到 1-2TB。 问题是我没有这么多数据…

前事休说 2024-12-23 11:04:51 5 0

使用 Nutch 获取特定的 HTML 标签

我会很详细地明确说明问题,所以请耐心等待:) 假设我有以下基本 URL: http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd 其中列出了一些…

剑心龙吟 2024-12-23 01:19:28 2 0

Apache nutch:在解析之前操作 DOM

我想在页面响应被处理之前删除特定元素。 具体来说,我想用 ie 标记我的页面的一部分 I shall not be indexed ,并想在 nuch 解析之前删除它们,这样…

春夜浅 2024-12-22 14:45:21 4 0

分类网站上的搜索实施

我目前正在开发一个用 PHP 开发的分类网站。我想在我们的网站中实现两种类型的搜索: 从我们自己的网站 搜索 搜索网络。 我即将实施 Solr 进行第一次…

枯叶蝶 2024-12-22 04:23:54 4 0

哪种开源爬虫最好?

我正在比较这四个 Nutch / Heritrix / OpenPipeLine / Apache Tika 哪一个最好?各有什么优点和缺点? 我想要一些可扩展的爬虫,它可以爬行网站列表,…

若水微香 2024-12-20 06:23:18 1 0

Nutch 1.4 与 Solr 3.5 http.agent.name 属性集成

我一直在尝试使用 Solr 设置 Nutch,但出现以下异常 Fetcher:“http.agent.name”属性中未列出代理。 线程“main”java.lang.IllegalArgumentExcepti…

惜醉颜 2024-12-20 03:07:16 0 0

Solr:我已设置“hl=true”,但没有输出任何摘要

我需要从查询词匹配的文档中获取片段,以便能够输出类似于网站 URL 下的 Google 片段的结果。例如: 片段 - 维基百科,免费的百科全书 en.wikipedia.o…

讽刺将军 2024-12-19 03:05:38 5 0

在 Solr 中获取片段

我正在运行 Solr + Nutch,需要获取每个结果的片段。我尝试在查询 URL 中将 hl 设置为 true,但仍然得到相同的 XML 结果(没有片段)。关于如何完成这…

旧伤还要旧人安 2024-12-18 10:58:57 2 0

Nutch 爬虫未对 HTML 内容建立索引

我正在尝试开发一个搜索功能,在其中输入城市名称,它会为我提供该城市的天气状况。 我已经在我的系统上设置了 Nutch-1.3 和 Solr-3.4.0。我正在爬行…

水染的天色ゝ 2024-12-17 08:01:27 4 0

nutch 1.3 中的 topN 是什么?

我在网站上读到,nutch 从每个链接获取链接都等于 topN。我有 4 个链接,但是当 nutch 抓取我的链接时,nutch 返回的所有结果都等于 topN。这意味着如…

谁的年少不轻狂 2024-12-17 04:16:35 4 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文