nutch

nutch

文章 73 浏览 79

Nutch 的自定义解析器(或开源 .NET Crawler)

我一直在使用 Nutch/Solr/SolrNet 作为我的搜索解决方案,我必须说,它非常有用。在我正在开发的一个新网站上,我使用母版页,因此页眉和页脚中的内容…

拿命拼未来 2024-11-09 22:41:57 6 0

Nutch 新手 - JSP 与 html 问题

系统:Mac OSX 我已经设置了 nutch,以便它对我的网站进行爬网和索引。它还返回搜索结果。我的问题是我想自定义 Nutch index.jsp 和 search.jsp 页面…

尴尬癌患者 2024-11-08 16:02:31 5 0

您之前是否使用elasticsearch 对 nutch 爬行结果建立了索引?

有没有人有幸为 nutch 编写自定义索引器来使用 elasticsearch 索引爬行结果?或者您知道已经存在的吗?…

云巢 2024-11-07 09:43:53 7 0

ivy 依赖项修订与 svn 有什么关系吗?

由于没有 ivy 依赖项 的背景,我正在尝试使用 solr 4.0 构建 nutch,但我不知道如何更改 ivy.xml 中的 nutch ivy 对 solr 的依赖:

孤独陪着我 2024-11-06 04:56:14 11 0

根据日期和条件增强 Solr

我正在尝试提升 Solr 查询中的新文档。 ms函数Solr FAQ似乎是正确的方法,但我需要添加附加条件: 我使用爬网网页中的上次修改日期作为要考虑的日期,…

沦落红尘 2024-11-04 02:13:09 4 0

为什么我得到“security.Groups:组映射 impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;”缓存超时=300000”?

$hdfs dfs -rmr crawl 11/04/16 08:49:33 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cach…

雨后彩虹 2024-11-01 21:25:32 5 0

在爬网或使用 nutch 和 solr 建立索引期间从 html 中删除菜单

我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。 这些菜单中的每一个…

霊感 2024-10-31 15:20:30 7 0

用java为nutch编写代码

你好: 我正在用java为nutch(开源搜索引擎)编写代码,以删除索引器中阿拉伯语单词的移动。 我不知道其中有什么错误。 这是代码: package com.mycom…

抚你发端 2024-10-31 09:59:15 3 0

使用 solr 索引 HTML

我正在使用 nutch 爬行我们的大型网站,然后使用 solr 进行索引,结果非常好。然而,网站上有几个菜单结构会索引并破坏查询结果。 这些菜单中的每一个…

愛放△進行李 2024-10-31 05:02:43 4 0

如何使用 nutchcrawl 省略 JavaScript 和注释?

我是这方面的新手,尝试使用 Nutch 1.2 来获取网站。我只使用 Linux 控制台来使用 Nutch,因为我不需要任何其他东西。我的命令看起来像这样 bin/nutch…

口干舌燥 2024-10-29 06:02:26 4 0

Nutch:在 Java 中调用,而不是命令行?

是我太笨了还是真的没有办法通过一些 Java 代码以编程方式调用 Apache Nutch?关于如何执行此操作的文档(或指南或教程)在哪里?谷歌让我失望了。所…

小嗲 2024-10-26 02:21:25 4 0

Nutch 网络蜘蛛,索引整个网络

好吧,我一直在搞 Nutch 并且需要知道 crawl-urlfilter 中的参数是什么我编辑了 .txt 文件,以便蜘蛛没有边界。换句话说,我希望它在指定域之外的网络…

懒猫 2024-10-22 08:34:30 6 0

在现有 Hadoop 集群上运行 Nutch

我们有一个 Hadoop 集群 (Hadoop 0.20),我想使用 Nutch 1.2 通过 HTTP 将一些文件导入 HDFS,但我无法让 Nutch 在集群上运行。 我已经更新了 $HADOOP…

梨涡少年 2024-10-22 01:21:04 4 0

有没有一种方法可以结束 Nutch 蜘蛛而不丢失您抓取的信息?

如果我处于蜘蛛会话中间并且关闭蜘蛛,所有数据都不会显示在索引中。我必须等到索引完成它自己。有没有办法可以结束蜘蛛并仍然能够使用 Nutch 搜索来…

纵山崖 2024-10-21 21:46:49 3 0

以编程方式更改 nutch 索引中的 url 域

我目前正在为网站内容制作搜索引擎(仅用于在该网站内搜索)。但是,我正在考虑在临时服务器中构建索引。是这样的: 1.我将我的代码暂存于 www.stagin…

揽月 2024-10-20 19:58:37 5 0
更多

推荐作者

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

更多

友情链接

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文