如何获取维基百科类别及其子类别下的所有文章页面?

发布于 2024-11-03 16:18:01 字数 216 浏览 0 评论 0原文

我想获取一个类别及其子类别下的所有文章名称。

我知道的选项:

  1. 使用维基百科 API。有这样的选择吗??
  2. d/l 转储。哪种格式更适合我的使用?
  3. 还有一个在维基百科中搜索类似 incategory:"music" 的选项,但我没有看到在 XML 中查看该内容的选项。

请分享您的想法

I want to get all the articles names under a category and its sub-categories.

Options I'm aware of:

  1. Using the Wikipedia API. Does it have such an option??
  2. d/l the dump. Which format would be better for my usage?
  3. There is also an option to search in Wikipedia something like incategory:"music", but I didn't see an option to view that in XML.

Please share your thoughts

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

家住魔仙堡 2024-11-10 16:18:01

以下资源将帮助您下载该类别及其所有子类别的所有页面:

http://en .wikipedia.org/wiki/Wikipedia:CatScan

这里还有一个 API:

https ://www.mediawiki.org/wiki/API:Categorymembers

The following resource will help you to download all pages from the category and all its subcategories:

http://en.wikipedia.org/wiki/Wikipedia:CatScan

There is also an API available here:

https://www.mediawiki.org/wiki/API:Categorymembers

拒绝两难 2024-11-10 16:18:01

您可以通过以下两种 API 方法来执行此操作:

对于此类别的文章页面

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Music

对于获取子类别:

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtype=subcat&cmtitle=Category:Music

您可以在 Mediawiki API

You can do this through the following two API methods:

For articles pages for this category

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Music

For get subcategories:

YOUR_URL/api.php?action=query&format=json&list=categorymembers&cmtype=subcat&cmtitle=Category:Music

You can get more info on Mediawiki API

灼痛 2024-11-10 16:18:01

请注意,维基百科的分类系统不是树,甚至不是无环图。通过不断地跟踪子类别链接,您很可能最终会回到开始的地方。

如果您要进行许多此类查询,最好的方法是下载数据库转储。如果这是一件罕见的事情并且只处理小类别,那么您可能可以避免对 list=categorymembers

incategory:"music" 似乎没有进行子类别搜索。

Note that Wikipedia's categorization system is not a tree, or even an acyclic graph. It is quite possible that by continually following subcategory links you will eventually wind up back where you started.

If you are going to be making many such queries, you would be best served by downloading a database dump. If this will be an infrequent thing and will only be dealing with small categories, you could probably get away with making repeated queries to list=categorymembers.

incategory:"music" does not appear to do subcategory searching.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文