用于试验 Hadoop 的免费大型数据集

发布于 2024-08-29 08:49:19 字数 613 浏览 6 评论 0原文

您知道有哪些免费/低成本的大型数据集可以用于 Hadoop 实验吗? 任何相关的指针/链接都值得赞赏。

首选项:

  • 至少 1 GB 数据。

  • 网络服务器的生产日志数据。

到目前为止我发现的很少:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http ://aws.amazon.com/publicdatasets/

我们还可以运行自己的爬虫来从维基百科等网站收集数据吗?任何有关如何执行此操作的指示也将受到赞赏。

Do you know any large dataset to experiment with Hadoop which is free/low cost?
Any pointers/links related are appreciated.

Preference:

  • At least one GB of data.

  • Production log data of webserver.

Few of them which I found so far:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Also can we run our own crawler to gather data from sites e.g. Wikipedia? Any pointers on how to do this is appreciated as well.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(4

街角迷惘 2024-09-05 08:49:19

关于您关于爬行和维基百科的问题的几点说明。

您已链接到维基百科数据转储,并且可以使用Cloud9 来自 UMD 的项目,用于在 Hadoop 中处理这些数据。

他们有一个关于此的页面:使用维基百科

添加到列表中的另一个数据源是:

  • ClueWeb09 - 1 月至 2 月 9 日期间收集的 10 亿个网页。5TB 压缩。

我想说,使用爬虫生成数据应该在一个关于 Hadoop/MapReduce 的单独问题中发布。

Few points about your question regarding crawling and wikipedia.

You have linked to the wikipedia data dumps and you can use the Cloud9 project from UMD to work with this data in Hadoop.

They have a page on this: Working with Wikipedia

Another datasource to add to the list is:

  • ClueWeb09 - 1 billion webpages collected between Jan and Feb 09. 5TB Compressed.

Using a crawler to generate data should be posted in a separate question to one about Hadoop/MapReduce I would say.

素染倾城色 2024-09-05 08:49:19

一个明显的来源:Stack Overflow 三部曲数据转储。这些可以根据知识共享许可免费获得。

One obvious source: the Stack Overflow trilogy data dumps. These are freely available under the Creative Commons license.

知足的幸福 2024-09-05 08:49:19

这是 189 个机器学习数据集的集合(这是 hadoop g 最好的应用程序之一):
http://archive.ics.uci.edu/ml/datasets.html

This is a collection of 189 datasets for machine learning (which is one of the nicest applications for hadoop g):
http://archive.ics.uci.edu/ml/datasets.html

如梦亦如幻 2024-09-05 08:49:19

它不是日志文件,但也许您可以使用 OpenStreetMap 中的行星文件:http://wiki.openstreetmap。 org/wiki/Planet.osm

CC 许可证,约 160 GB(未压缩)

每个大陆还有较小的文件: http://wiki.openstreetmap.org/wiki/World

It's no log file but maybe you could use the planet file from OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

CC licence, about 160 GB (unpacked)

There are also smaller files for each continent: http://wiki.openstreetmap.org/wiki/World

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文