Nutch 到底是怎么回事?

发布于 2024-10-08 11:24:56 字数 196 浏览 3 评论 0原文

我要制作自己的搜索引擎。

在搜索搜索引擎、爬虫等内容时,我对Nutch感到困惑。

我不明白什么是Nutch。它是像 Lucene 这样的内部使用(如果我错了请纠正我)还是用于创建搜索引擎的框架(例如:google、bing、yahoo)?

Im going to make my own search engine.

When searching about search engine, crawler, and so on, I confused about Nutch.

I don’t understand what is Nutch. Is it for internal use like Lucene (correct me if Im wrong) or a framework for creating a search engine (example:google, bing, yahoo)?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

我喜欢麦丽素 2024-10-15 11:24:56

Nutch 是一个全功能的搜索引擎 - 它可以抓取外部网站,并且理解并尊重 robots.txt。

http://nutch.apache.org/about.html

概述 Nutch 是开源的
网络搜索软件。它建立在
Lucene 和 Solr,添加了 Web 细节,
例如爬虫、链接图
数据库、HTML 解析器和其他
文档格式等

Nutch 可以在单机上运行,​​但是
从中获得了很多力量
在 Hadoop 集群中运行

系统可以增强(例如其他
可以解析文档格式)使用
插件机制。

有关 Nutch 的更多信息,
请参阅 Nutch wiki。

Nutch is a full featured search engine - it can crawl external web sites, and it understands and respects robots.txt.

http://nutch.apache.org/about.html

Overview Nutch is open source
web-search software. It builds on
Lucene and Solr, adding web-specifics,
such as a crawler, a link-graph
database, parsers for HTML and other
document formats, etc.

Nutch can run on a single machine, but
gains a lot of its strength from
running in a Hadoop cluster

The system can be enhanced (eg other
document formats can be parsed) using
a plugin mechanism.

For more information about Nutch,
please see the Nutch wiki.

南薇 2024-10-15 11:24:56

Nutch 是一个现成的、可配置的网络爬虫,带有用于执行搜索的 Java Servlet。如果您想将其作为一个项目来完成,Nutch 可能会做太多事情,因为剩下的就是创建用于输入搜索和显示结果的页面。

Nutch is a ready-made, configurable web crawler with a Java Servlet for performing searches. If you wanted to do this as a project, Nutch probably does too much since all that's left is creating the pages for entering searches and displaying results.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文