nutch

nutch

文章 73 浏览 79

清空 Nutch 抓取列表

我正在尝试在 Eclipse 中使用 Nutch 运行爬网。 我使用的是一个名为 urls 的文件,它包含 http://www.google.com/ 但是,当我运行该项目时,Generator…

写下不归期 2024-10-08 03:16:54 5 0

如何在Nutch中抓取图像?

如何在Nutch中抓取图像?或者,是否有任何其他开放搜索引擎可以生成带有图像的结果?…

风吹雨成花 2024-10-08 03:16:48 6 0

网络爬虫算法:深度?

我正在开发爬虫,需要准确理解“链接深度”的含义。以 nutch 为例: http://wiki.apache.org/nutch/NutchTutorial 深度表示从根页面开始的链接深度 已…

柠北森屋 2024-10-06 12:36:39 11 0

Nutch - Lucene - 捕获页面内容

我用 Java Nutch 爬取了一些页面 另外,我用 Java 中的 Lucene 制作了一个模块,允许对索引文档执行查询。 我知道我创建了 Nutch 字段,例如 url、权…

天赋异禀 2024-10-06 12:35:12 7 0

无法在 Windows 上从 Tomcat Web 应用程序运行 nutch

我有一个网络应用程序,它生成一个运行 Nutch 爬网的脚本。一切都运行得很好,只是现在我的客户希望它在 Windows PC 上运行。她给我的 Windows PC 运…

紧拥背影 2024-10-05 16:37:20 6 0

Nutch 问题:java.lang.NoClassDefFoundError

我正在尝试在我的 Windows 计算机上运行 Nutch。我安装了 Nutch、Java、Tomcat 和 Cygwin。当我尝试在 Cygwin 中运行抓取命令时,出现以下错误: java…

心碎的声音 2024-10-05 09:40:21 9 0

如何在nutch中按主机对搜索结果进行分组

我正在进行一个小型的内联网搜索,我使用 nutch 进行爬行和搜索 我有子域,例如 z.example.com a.example.com m.example.com ,如果我使用 nutch 搜索…

够钟 2024-10-05 06:01:22 9 0

如何让坚果爬行器爬行

我对 nutch 有一些疑问 当我使用 wiki 时,系统要求我编辑 crawl-urlfilter.txt +^http://([a-z0-9]*\.)*apache.org/ 并要求我创建一个 url 文件夹和…

万人眼中万个我 2024-10-05 05:39:23 7 0

需要插件来覆盖默认标题

我正在尝试基于 http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html 获取自定义标题查找器。 这很有效,并且将提取的…

蓝眼泪 2024-10-04 23:05:35 6 0

Nutch 的替代网络爬虫

Closed. This question is seeking recommendations for software libraries, tutorials, tools, books, or other off-site resources. It does not …

咿呀咿呀哟 2024-10-04 05:04:18 6 0

Zend lucene 内容字段

我已经使用 Nutch 为网站建立了索引,现在我正在使用 Zend Lucene 库搜索索引。 实际上,我已将 Zend 库引入 Codeigniter,但所有工作都是由 Zend 完…

怪异←思 2024-10-03 18:24:05 8 0

Hadoop 创建索引并将其 Add() 到分布式 SOLR...这可能吗?我应该使用 Nutch 吗? ..Cloudera?

我可以使用 MapReduce 框架创建索引并以某种方式将其添加到分布式 Solr 中吗? 我有大量信息(日志文件和文档),这些信息将通过互联网传输并存储在我…

淡看悲欢离合 2024-10-03 17:46:04 13 0

Drupal +纳奇 +索尔

我们即将启动一个由搜索引擎网站组成的项目。我们需要在其核心搜索引擎解决方案上实现一个具有社交功能的网站。显然,我们需要选择一个好的网络爬虫和…

一江春梦 2024-10-02 05:35:21 7 0

为什么 nutch 解析 application/x-javascript 文件?

我在 conf/nutch-site.xml 中配置了 nutch, plugin.includes urlfilter-regex|protocol-(http|file)|parse-(text|html|pdf|msword)|in dex-(basic|an…

虫児飞 2024-10-02 00:35:27 5 0

无法访问作业跟踪器的 hadoop Web ui

我正在尝试设置 hadoop 和 nutch 以在 EC2 上运行。首先,我遵循了优秀的 NutchHadoopTutorial。除了我无法访问任何 Web 界面(例如 JobTracker)之外…

悲喜皆因你 2024-10-01 09:36:48 5 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文