当前位置：文江博客话题详情

我如何获得维基百科页面的子集？

发布于 2024-08-02 21:26:39 字数 224 浏览 8 评论 0原文

我如何获得维基百科页面的子集（例如 100MB）？我发现您可以将整个数据集作为 XML 获取，但它更像是 1 或 2 个演出；我不需要那么多。

我想尝试实现映射缩减算法。

话虽如此，如果我能从任何地方找到 100 兆的文本样本数据，那也很好。例如，Stack Overflow 数据库（如果可用）可能会是一个不错的大小。我愿意接受建议。

编辑：还有不是种子的吗？我无法在工作中得到这些。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

缺⑴份安定 2024-08-09 21:26:39

stackoverflow 数据库可供下载。

回复收藏 0 原文

温柔一刀 2024-08-09 21:26:39

Chris，您可以编写一个小程序来点击 Wikipedia“随机页面”链接，直到获得 100MB 的网页： http://en.wikipedia.org/wiki/Special:Random。您将希望丢弃可能获得的任何重复项，并且您可能还希望限制每分钟发出的请求数量（尽管部分文章将由中间网络缓存而不是维基百科服务器提供）。但这应该很容易。

回复收藏 0 原文

满身野味 2024-08-09 21:26:39

一种选择是下载整个维基百科转储，然后仅使用其中的一部分。您可以解压缩整个文件，然后使用一个简单的脚本将文件拆分为较小的文件（例如这里），或者如果你担心磁盘空间，你可以写一个脚本来动态解压和分割，然后你就可以在您想要的任何阶段停止解压过程。 Wikipedia Dump Reader 可以让您如果您熟悉 Python（请查看 mparser.py），那么它会为您提供即时解压缩和处理的灵感。

如果您不想下载整个内容，则可以选择抓取。导出功能可能对此有所帮助，并且<在这种情况下还建议使用 href="http://meta.wikimedia.org/wiki/Using_the_python_wikipediabot" rel="nofollow noreferrer">wikipediabot。

回复收藏 0 原文