第 2 页 - nutch - 文江博客

nutch

文章 73 浏览 79

通过网络爬取创建数据集

我想构建一个由大约 2000-3000 个网页组成的数据集，从几个种子 URL 开始。我尝试使用 Nutch 爬虫，但无法完成（无法将获取的“分段”数据转换为 html…

那伤。 2024-12-28 11:10:41 5 0

螺母安装

searcher.dir your_crawl_folder_here For example, if your nutch directory resides at C:\nutch-0.9.0 and you specified crawl as the directory…

少女情怀诗 2024-12-28 09:08:48 7 0

如何记录 nutch 插件的执行

我正在努力构建具有特殊要求的自定义 nutch 插件。我发现 hadoop.log 中提到了我的插件，但它不相关。我在代码的不同位置添加了 LOG.debug("test") …

困倦 2024-12-27 16:35:51 2 0

nutch 无法成功解析内容

我尝试使用 nutch 1.4 进行爬网，但我在解析时遇到错误，这是日志文件： 2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting…

飞烟轻若梦 2024-12-26 02:16:59 0 0

使用CrawlDbReader读取Nutch爬行数据

我正在使用nutch 1.4来实现一个专注的爬虫。谁能告诉我如何在我的 JSP 程序中使用 nutch CrawlDbReader、LinkDbReader 和 SegmentReader API 以便我可…

逆流 2024-12-25 19:18:08 3 0

海量数据如何产生？

我正在使用 nutch 和 hadoop 进行一些测试，我需要大量数据。我想从 20GB 开始，逐渐增加到 100GB、500GB，最终达到 1-2TB。问题是我没有这么多数据…

前事休说 2024-12-23 11:04:51 5 0

使用 Nutch 获取特定的 HTML 标签

我会很详细地明确说明问题，所以请耐心等待:) 假设我有以下基本 URL： http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd 其中列出了一些…

剑心龙吟 2024-12-23 01:19:28 2 0

Apache nutch：在解析之前操作 DOM

我想在页面响应被处理之前删除特定元素。具体来说，我想用 ie 标记我的页面的一部分 I shall not be indexed ，并想在 nuch 解析之前删除它们，这样…

春夜浅 2024-12-22 14:45:21 4 0

分类网站上的搜索实施

我目前正在开发一个用 PHP 开发的分类网站。我想在我们的网站中实现两种类型的搜索：从我们自己的网站搜索搜索网络。我即将实施 Solr 进行第一次…

枯叶蝶 2024-12-22 04:23:54 4 0

哪种开源爬虫最好？

我正在比较这四个 Nutch / Heritrix / OpenPipeLine / Apache Tika 哪一个最好？各有什么优点和缺点？我想要一些可扩展的爬虫，它可以爬行网站列表，…

若水微香 2024-12-20 06:23:18 1 0

Nutch 1.4 与 Solr 3.5 http.agent.name 属性集成

我一直在尝试使用 Solr 设置 Nutch，但出现以下异常 Fetcher：“http.agent.name”属性中未列出代理。线程“main”java.lang.IllegalArgumentExcepti…

惜醉颜 2024-12-20 03:07:16 0 0

Solr：我已设置“hl=true”，但没有输出任何摘要

我需要从查询词匹配的文档中获取片段，以便能够输出类似于网站 URL 下的 Google 片段的结果。例如：片段 - 维基百科，免费的百科全书 en.wikipedia.o…

讽刺将军 2024-12-19 03:05:38 5 0

在 Solr 中获取片段

我正在运行 Solr + Nutch，需要获取每个结果的片段。我尝试在查询 URL 中将 hl 设置为 true，但仍然得到相同的 XML 结果（没有片段）。关于如何完成这…

旧伤还要旧人安 2024-12-18 10:58:57 2 0

Nutch 爬虫未对 HTML 内容建立索引

我正在尝试开发一个搜索功能，在其中输入城市名称，它会为我提供该城市的天气状况。我已经在我的系统上设置了 Nutch-1.3 和 Solr-3.4.0。我正在爬行…

水染的天色ゝ 2024-12-17 08:01:27 4 0

nutch 1.3 中的 topN 是什么？

我在网站上读到，nutch 从每个链接获取链接都等于 topN。我有 4 个链接，但是当 nutch 抓取我的链接时，nutch 返回的所有结果都等于 topN。这意味着如…

谁的年少不轻狂 2024-12-17 04:16:35 4 0

共 15 页
上一页
1
2
3
4
5
下一页

友情链接

文江博客