nutch

nutch

文章 73 浏览 79

使用 nutch 索引我的本地 HTML 文件

我的硬盘上有很多 HTML 文件,想用 Nutch 为它们建立索引,但据我所知,nutch 只能获取 URL 并为它们以及在该 URL 中链接的页面建立索引。 有谁知道我…

忘年祭陌 2024-11-30 13:17:19 8 0

Nutch .Net 实施

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

孤者何惧 2024-11-30 09:59:22 2 0

增加 nutch 中语言标识符插件的 Java 堆空间

我正在尝试向自动语言检测工具 Apache 的 tika 添加一种新语言。它需要构建一个语言配置文件以添加新语言。所以我使用 nutch 语言标识符插件来构建此…

濫情▎り 2024-11-30 05:23:48 5 0

如何使用nutch 1.2抓取特定URL

我正在使用 nutch-1.2,但无法限制我的配置文件仅抓取给定的 url 我的crawl-urlfilter.txt 文件是 # Each non-comment, non-blank line contains a re…

尸血腥色 2024-11-29 09:22:20 5 0

Nutch 1.2 - 为什么 Nutch 不使用查询字符串抓取 url?

我是 Nutch 的新手,不太确定这里发生了什么。我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL。我已经在crawl-urlfilter.txt页面…

咽泪装欢 2024-11-29 05:55:35 3 0

Solr 和 Nutch - 如何控制 Facet?

抱歉,如果这个问题可能太笼统了。如果有的话,我会很高兴获得良好的文档链接。谷歌不会帮我找到它们。 我需要了解如何从 Nutch 爬行然后由 Solr 索引…

一腔孤↑勇 2024-11-28 05:35:18 8 0

Nutch 1.3:更改用户代理

我需要更改每个已爬网域的用户代理字符串。我使用标准的 Nutch 抓取实用程序代码,它每次抓取一个域。它以多线程模式启动以抓取许多域。我需要将域字…

自由如风 2024-11-27 13:35:39 3 0

从 solr 和 nutch 生成的搜索索引中获取文本片段

我刚刚按照入门教程配置了 nutch 和 solr,以成功对网站上的文本进行爬网和索引。现在我尝试通过修改示例速度模板来制作搜索页面。 现在回答我的问题…

橙幽之幻 2024-11-27 04:57:02 5 0

Apache Nutch:没有可获取的 URL - 检查您的种子列表和 URL 过滤器

我使用的是nutch 1.2。当我像这样运行爬网命令时: bin/nutch crawl urls -dir crawl -depth 2 -topN 1000 Injector: starting at 2011-07-11 12:18:3…

糖果控 2024-11-19 13:36:39 3 0

Apache Nutch 仅索引部分页面内容

将使用 Apache Nutch v1.3 从网页中仅提取一些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我需…

忱杏 2024-11-19 07:23:44 5 0

生成用于获取的 db_gone url

在我的爬虫系统中,我将获取间隔设置为 30 天。我最初将我的用户代理设置为“....”,然后许多网址都被拒绝。但是将我的用户代理更改为适当的名称后,…

影子是时光的心 2024-11-18 22:46:46 7 0

Nutch “http.agent.name”中未列出代理;

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.…

烧了回忆取暖 2024-11-18 16:03:25 6 0

爬虫分布在不同的地理位置

我在不同的地理位置有几台台式机。我需要在每台桌面计算机上创建一个带有客户端的爬虫和一个对数据进行索引的中央服务器。 Nutch 是否可以创建这样的…

夜雨飘雪 2024-11-18 10:29:00 4 0

将 URL 参数添加到 Nutch/Solr 索引和搜索结果

我找不到任何关于如何设置 nutch 来不过滤/删除我的 URL 参数的提示。我想对一些页面进行爬网和索引,其中大量内容隐藏在相同的基本 URL 后面(例如 /…

独木成林 2024-11-17 12:20:29 9 0

Nutch solrindex 命令未对 Solr 中的所有 URL 建立索引

我有一个从特定域爬取的 Nutch 索引,并且我正在使用 solrindex 命令将爬取的数据推送到我的 Solr 索引。问题在于,似乎只有部分爬行的 URL 实际上在 …

放我走吧 2024-11-16 09:57:53 5 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文