Nutch 的自定义解析器(或开源 .NET Crawler)
我一直在使用 Nutch/Solr/SolrNet 作为我的搜索解决方案,我必须说,它非常有用。在我正在开发的一个新网站上,我使用母版页,因此页眉和页脚中的内容…
Nutch 新手 - JSP 与 html 问题
系统:Mac OSX 我已经设置了 nutch,以便它对我的网站进行爬网和索引。它还返回搜索结果。我的问题是我想自定义 Nutch index.jsp 和 search.jsp 页面…
您之前是否使用elasticsearch 对 nutch 爬行结果建立了索引?
有没有人有幸为 nutch 编写自定义索引器来使用 elasticsearch 索引爬行结果?或者您知道已经存在的吗?…
ivy 依赖项修订与 svn 有什么关系吗?
由于没有 ivy 依赖项 的背景,我正在尝试使用 solr 4.0 构建 nutch,但我不知道如何更改 ivy.xml 中的 nutch ivy 对 solr 的依赖:
为什么我得到“security.Groups:组映射 impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;”缓存超时=300000”?
$hdfs dfs -rmr crawl 11/04/16 08:49:33 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cach…
在爬网或使用 nutch 和 solr 建立索引期间从 html 中删除菜单
我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。 这些菜单中的每一个…
用java为nutch编写代码
你好: 我正在用java为nutch(开源搜索引擎)编写代码,以删除索引器中阿拉伯语单词的移动。 我不知道其中有什么错误。 这是代码: package com.mycom…
如何使用 nutchcrawl 省略 JavaScript 和注释?
我是这方面的新手,尝试使用 Nutch 1.2 来获取网站。我只使用 Linux 控制台来使用 Nutch,因为我不需要任何其他东西。我的命令看起来像这样 bin/nutch…
Nutch:在 Java 中调用,而不是命令行?
是我太笨了还是真的没有办法通过一些 Java 代码以编程方式调用 Apache Nutch?关于如何执行此操作的文档(或指南或教程)在哪里?谷歌让我失望了。所…
Nutch 网络蜘蛛,索引整个网络
好吧,我一直在搞 Nutch 并且需要知道 crawl-urlfilter 中的参数是什么我编辑了 .txt 文件,以便蜘蛛没有边界。换句话说,我希望它在指定域之外的网络…
在现有 Hadoop 集群上运行 Nutch
我们有一个 Hadoop 集群 (Hadoop 0.20),我想使用 Nutch 1.2 通过 HTTP 将一些文件导入 HDFS,但我无法让 Nutch 在集群上运行。 我已经更新了 $HADOOP…
有没有一种方法可以结束 Nutch 蜘蛛而不丢失您抓取的信息?
如果我处于蜘蛛会话中间并且关闭蜘蛛,所有数据都不会显示在索引中。我必须等到索引完成它自己。有没有办法可以结束蜘蛛并仍然能够使用 Nutch 搜索来…
以编程方式更改 nutch 索引中的 url 域
我目前正在为网站内容制作搜索引擎(仅用于在该网站内搜索)。但是,我正在考虑在临时服务器中构建索引。是这样的: 1.我将我的代码暂存于 www.stagin…