使用 nutch 索引我的本地 HTML 文件
我的硬盘上有很多 HTML 文件,想用 Nutch 为它们建立索引,但据我所知,nutch 只能获取 URL 并为它们以及在该 URL 中链接的页面建立索引。 有谁知道我…
Nutch .Net 实施
Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …
增加 nutch 中语言标识符插件的 Java 堆空间
我正在尝试向自动语言检测工具 Apache 的 tika 添加一种新语言。它需要构建一个语言配置文件以添加新语言。所以我使用 nutch 语言标识符插件来构建此…
如何使用nutch 1.2抓取特定URL
我正在使用 nutch-1.2,但无法限制我的配置文件仅抓取给定的 url 我的crawl-urlfilter.txt 文件是 # Each non-comment, non-blank line contains a re…
Nutch 1.2 - 为什么 Nutch 不使用查询字符串抓取 url?
我是 Nutch 的新手,不太确定这里发生了什么。我运行 nutch 并抓取我的网站,但它似乎忽略了包含查询字符串的 URL。我已经在crawl-urlfilter.txt页面…
Solr 和 Nutch - 如何控制 Facet?
抱歉,如果这个问题可能太笼统了。如果有的话,我会很高兴获得良好的文档链接。谷歌不会帮我找到它们。 我需要了解如何从 Nutch 爬行然后由 Solr 索引…
从 solr 和 nutch 生成的搜索索引中获取文本片段
我刚刚按照入门教程配置了 nutch 和 solr,以成功对网站上的文本进行爬网和索引。现在我尝试通过修改示例速度模板来制作搜索页面。 现在回答我的问题…
Apache Nutch:没有可获取的 URL - 检查您的种子列表和 URL 过滤器
我使用的是nutch 1.2。当我像这样运行爬网命令时: bin/nutch crawl urls -dir crawl -depth 2 -topN 1000 Injector: starting at 2011-07-11 12:18:3…
Apache Nutch 仅索引部分页面内容
将使用 Apache Nutch v1.3 从网页中仅提取一些特定内容。检查了 parse-html 插件。似乎它使用 tagoup 或 nekohtml 规范每个 html 页面。这很好。我需…
Nutch “http.agent.name”中未列出代理;
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.…
将 URL 参数添加到 Nutch/Solr 索引和搜索结果
我找不到任何关于如何设置 nutch 来不过滤/删除我的 URL 参数的提示。我想对一些页面进行爬网和索引,其中大量内容隐藏在相同的基本 URL 后面(例如 /…
Nutch solrindex 命令未对 Solr 中的所有 URL 建立索引
我有一个从特定域爬取的 Nutch 索引,并且我正在使用 solrindex 命令将爬取的数据推送到我的 Solr 索引。问题在于,似乎只有部分爬行的 URL 实际上在 …