nutch在EMR中用于原始数据的持续存储的最佳选择
我必须在EMR AWS服务上使用Nutch 1.x爬到30k至50k域。它将是逐渐的,即首先爬行所有页面,后来仅用于这些网站的新页面或更新的页面。 对于索引,我正在使用Apache Solr。 我认为对EMR的最佳实践有很少的疑问
- 如果我必须重新索引或分析旧的爬行数据, ,我认为原始数据应存储在S3上。是正确的选择吗?
- 将S3配置为我的第一个问题的HDFS后端存储更好,或者我应该在EMR作业结束时复制文件夹。
- 在任何一种情况下,要优化S3中的原始数据存储,如何在/到从S3导入或导出EMR群集时如何压缩数据。
- 我如何指示纽约只抓取给定种子的新页面
I have to crawl around 30k to 50k domains with Nutch 1.x on EMR AWS service. It will be gradual i.e., first crawl all pages and later only new or updated pages for these websites.
For indexing, I am using Apache Solr. I have few queries for best practices with EMR
- If I have to re-index or analyze old crawled data, I think raw data should be stored on S3. Is it the right option?
- Is it better to configure S3 as back-end storage of HDFS for my first question or I should copy folder at the end of EMR job manually.
- In either case, to optimize storage in S3 for raw data, how can I compress data when importing or exporting from/to EMR cluster to/from S3.
- How can I instruct Nutch to crawl only new found pages from given seed
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
org.apache.hadoop.io.compress.zstandardcodec
是一个不错的选择。org.apache.hadoop.io.compress.ZStandardCodec
is a good option.