当前位置：文江博客话题详情

仅获取维基百科摘要

发布于 2024-10-20 17:19:18 字数 1539 浏览 4 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小兔几 2024-10-27 17:19:18

不一定有与门户对应的类别，尽管您可以尝试查找与门户同名的类别、门户页面所在的类别（使用 API，您可以使用 prop= 进行查询类别），或从门户页面链接的类别页面（prop=links&plnamespace=14）。

这些语言中的任何一种都可以。您还可以选择 perl、java、C#、objective-c 或任何其他语言。不同质量的框架列表可以在此处或此处。

API 当然可以使用 prop=revisions 为您提供内容。您甚至可以使用 rvsection=0 仅查询“lead”部分。 API 还可以使用 list=categorymembers 为您提供类别中的页面列表，并使用 prop=categories 为您提供页面的类别列表。

500页应该不是问题。如果您想要大部分文章，您需要考虑使用数据库转储代替。

有关详细信息，请参阅API 文档。

回复收藏 0 原文

太阳哥哥 2024-10-27 17:19:18

Python，抓取页面很有趣，为此我建议通过 lxml.html 使用 xpath。

回复收藏 0 原文

人间☆小暴躁 2024-10-27 17:19:18

虽然您正在寻找基于网络爬虫的解决方案，但我建议您看看DBPedia。本质上它是 RDF 格式的维基百科。您可以下载整个数据库转储，对其运行 SPARQL 查询，或者直接指向资源并启动通过浏览参考文献来探索。
例如，可以通过以下 URL 访问计算机科学类别：

http://dbpedia.org/page/Category:Computer_science

回复收藏 0 原文

甜点 2024-10-27 17:19:18

我会建议使用 python 来快速开发。
你必须有两个模块。会爬取所有可能的类别
内部类别（基本上是类别树），其他可以
从详细信息页面（即普通维基页面）提取信息
维基百科支持特殊：在 URL 参数中导出，这将
允许您获取 XML 响应。使用python的xpath
模块将为您提供帮助。

回复收藏 0 原文

~没有更多了~

关于作者

黑白记忆

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

仅获取维基百科摘要

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

仅获取维基百科摘要

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。