nutch抓取网页数据是把数据存储在本地还是直接就进入数据库?
初步接触搜索引擎方面的知识,打算用nutch作为爬虫来抓取指定的网页,我是在Cygwin下执行nutch命令的,出现如下错误:
一个错误就是cygpath:can`t convert empty path,一个错误就是Failed to set permissions of path...
我是通过local本地运行模式来执行,还没用那个deploy分布式的执行,但是却报有关Hadoop相关错误,不知如何解决,对抓取的数据是存储在本地文件系统还是存储数据库也不太清楚,希望有这方面的建议的朋友多提提意见。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
最好还是用linux系统
nutch爬取数据先用hadoop处理再用solr构建索引提供查询