当前位置：文江博客话题详情

hadoop resources opendata

用于试验 Hadoop 的免费大型数据集

发布于 2024-08-29 08:49:19 字数 613 浏览 6 评论 0原文

您知道有哪些免费/低成本的大型数据集可以用于 Hadoop 实验吗？任何相关的指针/链接都值得赞赏。

首选项：

至少 1 GB 数据。
网络服务器的生产日志数据。

到目前为止我发现的很少：

我们还可以运行自己的爬虫来从维基百科等网站收集数据吗？任何有关如何执行此操作的指示也将受到赞赏。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

街角迷惘 2024-09-05 08:49:19

关于您关于爬行和维基百科的问题的几点说明。

您已链接到维基百科数据转储，并且可以使用Cloud9 来自 UMD 的项目，用于在 Hadoop 中处理这些数据。

他们有一个关于此的页面：使用维基百科

添加到列表中的另一个数据源是：

ClueWeb09 - 1 月至 2 月 9 日期间收集的 10 亿个网页。5TB 压缩。

我想说，使用爬虫生成数据应该在一个关于 Hadoop/MapReduce 的单独问题中发布。

回复收藏 0 原文

素染倾城色 2024-09-05 08:49:19

一个明显的来源：Stack Overflow 三部曲数据转储。这些可以根据知识共享许可免费获得。

回复收藏 0 原文

知足的幸福 2024-09-05 08:49:19

这是 189 个机器学习数据集的集合（这是 hadoop g 最好的应用程序之一）：
http://archive.ics.uci.edu/ml/datasets.html

回复收藏 0 原文

如梦亦如幻 2024-09-05 08:49:19

它不是日志文件，但也许您可以使用 OpenStreetMap 中的行星文件：http://wiki.openstreetmap。 org/wiki/Planet.osm

CC 许可证，约 160 GB（未压缩）

每个大陆还有较小的文件： http://wiki.openstreetmap.org/wiki/World

回复收藏 0 原文

~没有更多了~

关于作者

往事随风而去

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Gabu-gabumon

文章 0 评论 0

qq_CgiN62

文章 0 评论 0

荔枝明

文章 0 评论 0

赏烟花じ飞满天

文章 0 评论 0

独守阴晴ぅ圆缺

文章 0 评论 0

¤→小豸慧

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文