在 Nutch 中分析 Lucene
我正在尝试使用 VisualVM 分析 Nutch。 Lucene 是 Nutch 核心的一部分,负责生成 url 索引并根据某些查询搜索这些索引。我通过 Apache Tomcat 运行 Nu…
nutch爬虫相对url问题
有没有人遇到过标准 html 解析器插件处理相对 URL 的问题?有一个网站 - http://xxxx/asp/list_books.asp?id_f=11327 当浏览其 href 设置为的链接时 '…
在 apache solr (trunk) 中集成 apache nutch (版本 1.2) 时出现的问题 - 出现 solr 异常
我已经配置了 solrindex-mapping.xml (nutch) 并配置了我的 solr schema.xml 和 solrconfig.xml 。两者在单次运行中都运行良好,但如果我使用 bin/nut…
solrindex 将 nutch 模式映射到 solr 的方法
我们有几个自定义的 nutch 字段供爬虫抓取并建立索引。通过 solrindex (使用映射文件)将其传输到 solr 效果很好。日志显示一切正常,但是 solr 环境…
Nutch:获取插件中当前的爬行深度
我想为 nutch 编写自己的 HTML 解析器插件。 我正在通过生成仅落在特定 xpath 中的外链来进行集中爬行。 在我的用例中,我想根据当前爬行的深度从 htm…
使用 nutch+solr 识别文档中的字符串?
我正在研究一种搜索解决方案,该解决方案将识别字符串(公司名称)并使用这些字符串在 Solr 中进行搜索和构面。 我是 Nutch 和 Solr 的新手,所以我想…
solr 搜索引擎的 3 个服务器架构
我准备在solr上搭建一个搜索引擎,用nutch作为爬虫。我必须索引大约 1300 万份文档。 我有 3 台服务器用于这项工作: 4 核 Xeon 3Ghz、20Gb 内存、1.5…
绕过本地主机身份验证以在 Etherpad 中实现搜索
我正在尝试将基于 Nutch + Solr 的搜索引擎实现到我的 Etherpad 安装中。我遇到的主要问题是 Nutch 不支持 POST 身份验证。 Etherpad 和 Nutch 安装在…
nutch 1.1 schema.xml
我最近下载了最新版本的 nutch。 (nutch-1.1) 在查看其代码时,我注意到有一个conf/schema.xml 文件,它定义了与nutch 捆绑在一起的solr 部分的模式。…