用于试验 Hadoop 的免费大型数据集
您知道有哪些免费/低成本的大型数据集可以用于 Hadoop 实验吗? 任何相关的指针/链接都值得赞赏。
首选项:
至少 1 GB 数据。
网络服务器的生产日志数据。
到目前为止我发现的很少:
我们还可以运行自己的爬虫来从维基百科等网站收集数据吗?任何有关如何执行此操作的指示也将受到赞赏。
Do you know any large dataset to experiment with Hadoop which is free/low cost?
Any pointers/links related are appreciated.
Preference:
At least one GB of data.
Production log data of webserver.
Few of them which I found so far:
Also can we run our own crawler to gather data from sites e.g. Wikipedia? Any pointers on how to do this is appreciated as well.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
关于您关于爬行和维基百科的问题的几点说明。
您已链接到维基百科数据转储,并且可以使用Cloud9 来自 UMD 的项目,用于在 Hadoop 中处理这些数据。
他们有一个关于此的页面:使用维基百科
添加到列表中的另一个数据源是:
我想说,使用爬虫生成数据应该在一个关于 Hadoop/MapReduce 的单独问题中发布。
Few points about your question regarding crawling and wikipedia.
You have linked to the wikipedia data dumps and you can use the Cloud9 project from UMD to work with this data in Hadoop.
They have a page on this: Working with Wikipedia
Another datasource to add to the list is:
Using a crawler to generate data should be posted in a separate question to one about Hadoop/MapReduce I would say.
一个明显的来源:Stack Overflow 三部曲数据转储。这些可以根据知识共享许可免费获得。
One obvious source: the Stack Overflow trilogy data dumps. These are freely available under the Creative Commons license.
这是 189 个机器学习数据集的集合(这是 hadoop g 最好的应用程序之一):
http://archive.ics.uci.edu/ml/datasets.html
This is a collection of 189 datasets for machine learning (which is one of the nicest applications for hadoop g):
http://archive.ics.uci.edu/ml/datasets.html
它不是日志文件,但也许您可以使用 OpenStreetMap 中的行星文件:http://wiki.openstreetmap。 org/wiki/Planet.osm
CC 许可证,约 160 GB(未压缩)
每个大陆还有较小的文件: http://wiki.openstreetmap.org/wiki/World
It's no log file but maybe you could use the planet file from OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm
CC licence, about 160 GB (unpacked)
There are also smaller files for each continent: http://wiki.openstreetmap.org/wiki/World