维基百科上的采矿人群

发布于 2024-08-26 11:39:23 字数 263 浏览 8 评论 0原文

我正在尝试从 http://en.wikipedia.org/wiki 获取人员列表/类别:按职业划分的人员 。我必须浏览所有部分并从每个部分找到人员。

我该怎么办?我应该使用爬虫程序获取页面并使用 BeautifulSoup 搜索页面吗?
或者还有其他选择可以从维基百科获得相同的内容吗?

I am trying to get the list of people from the http://en.wikipedia.org/wiki/Category:People_by_occupation . I have to go through all the sections and get people from each section.

How should i go about it ? Should I use a crawler and get the pages and search through those using BeautifulSoup ?
Or is there any other alternative to get the same from Wikipedia ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

当爱已成负担 2024-09-02 11:39:23

我会选择 Pywikipediabot python 项目。

查看 category.py
你可以使用:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category

I would go with Pywikipediabot python project.

Have a look to category.py.
You could use:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category
聆听风音 2024-09-02 11:39:23

如果需要,您可以下载维基百科的整个转储并从那里开始工作。您可能想要的只是2010 年 2 月 3 日的文章转储。但请注意:它的大小为 5.6 GB。

If you want, you can just download the entire dump of the wikipedia and work it from there. The one your would probably want is only the articles dump dated 3 feb 2010. But beware: It's 5.6 GB in size.

悟红尘 2024-09-02 11:39:23

您可以使用CatScan工具来搜索类别。

此处说明
http://meta.wikimedia.org/wiki/CatScan

搜索示例 - 注意,html 格式最多可显示 1000 个结果。选择 CSV 导出以检索所有结果。另外,请务必根据需要修改类别深度和其他选项。

已经提到的 pywikipediabot 是另一种选择。

You can use the CatScan tool to search categories.

Instructions here
http://meta.wikimedia.org/wiki/CatScan

Example search - note, html format maxes out at 1000 results. Choose CSV export to retrieve all the results. Also, be sure to modify the category depth and other options, as needed.

The pywikipediabot already mentioned is another option.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文