当前位置：文江博客话题详情

nutch抓取网页数据是把数据存储在本地还是直接就进入数据库?

发布于 2021-11-28 16:16:38 字数 394 浏览 791 评论 1

初步接触搜索引擎方面的知识，打算用nutch作为爬虫来抓取指定的网页，我是在Cygwin下执行nutch命令的，出现如下错误：

一个错误就是cygpath:can`t convert empty path,一个错误就是Failed to set permissions of path...

我是通过local本地运行模式来执行，还没用那个deploy分布式的执行，但是却报有关Hadoop相关错误，不知如何解决，对抓取的数据是存储在本地文件系统还是存储数据库也不太清楚，希望有这方面的建议的朋友多提提意见。

需要登录才能够评论，你可以免费注册一个本站的账号。

最好还是用linux系统

nutch爬取数据先用hadoop处理再用solr构建索引提供查询

~没有更多了~

暂无简介

文章

937 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0