nutch在EMR中用于原始数据的持续存储的最佳选择

发布于 2025-01-26 21:49:44 字数 329 浏览 3 评论 0原文

我必须在EMR AWS服务上使用Nutch 1.x爬到30k至50k域。它将是逐渐的,即首先爬行所有页面,后来仅用于这些网站的新页面或更新的页面。 对于索引,我正在使用Apache Solr。 我认为对EMR的最佳实践有很少的疑问

  1. 如果我必须重新索引或分析旧的爬行数据, ,我认为原始数据应存储在S3上。是正确的选择吗?
  2. 将S3配置为我的第一个问题的HDFS后端存储更好,或者我应该在EMR作业结束时复制文件夹。
  3. 在任何一种情况下,要优化S3中的原始数据存储,如何在/到从S3导入或导出EMR群集时如何压缩数据。
  4. 我如何指示纽约只抓取给定种子的新页面

I have to crawl around 30k to 50k domains with Nutch 1.x on EMR AWS service. It will be gradual i.e., first crawl all pages and later only new or updated pages for these websites.
For indexing, I am using Apache Solr. I have few queries for best practices with EMR

  1. If I have to re-index or analyze old crawled data, I think raw data should be stored on S3. Is it the right option?
  2. Is it better to configure S3 as back-end storage of HDFS for my first question or I should copy folder at the end of EMR job manually.
  3. In either case, to optimize storage in S3 for raw data, how can I compress data when importing or exporting from/to EMR cluster to/from S3.
  4. How can I instruct Nutch to crawl only new found pages from given seed

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

朮生 2025-02-02 21:49:44
  1. Nutch能够直接从S3读/写,请参见使用s3-as-nutch--存储系统
  2. 将片段和crawldb直接写入S3是有道理的。但是,也可以将其保留在HDF上,然后将其复制(DISTCP)到S3。
  3. 参见 mapreduce.output.fileoutputformat.compress.codec - org.apache.hadoop.io.compress.zstandardcodec是一个不错的选择。
  4. (最好再次单独问)爬行的域是否都提供 sitemaps ?否则,挑战是许多新的URL,重新提交为不太可能的页面。如果您想要所有新页面,或确保将所有删除的页面都识别为这样,那么重新启动所有内容就更容易。
  1. Nutch is able to read/write directly from S3, see using-s3-as-nutch-storage-system.
  2. Writing segments and CrawlDb directly to S3 makes sense. But to keep it on HDFS and then copying (distcp) to S3 is also possible.
  3. See mapreduce.output.fileoutputformat.compress.codec - org.apache.hadoop.io.compress.ZStandardCodec is a good option.
  4. (better ask this again separately) Do the crawled domains all provide sitemaps? Otherwise, the challenge is to many new URLs with re-fetching as less possible known pages. If you want all new pages or make sure all removed pages are recognized as such, it's easier to recrawl everything.
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文