维基百科上的采矿人群
我正在尝试从 http://en.wikipedia.org/wiki 获取人员列表/类别:按职业划分的人员 。我必须浏览所有部分并从每个部分找到人员。
我该怎么办?我应该使用爬虫程序获取页面并使用 BeautifulSoup 搜索页面吗?
或者还有其他选择可以从维基百科获得相同的内容吗?
I am trying to get the list of people from the http://en.wikipedia.org/wiki/Category:People_by_occupation . I have to go through all the sections and get people from each section.
How should i go about it ? Should I use a crawler and get the pages and search through those using BeautifulSoup ?
Or is there any other alternative to get the same from Wikipedia ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
我会选择 Pywikipediabot python 项目。
查看 category.py。
你可以使用:
I would go with Pywikipediabot python project.
Have a look to category.py.
You could use:
如果需要,您可以下载维基百科的整个转储并从那里开始工作。您可能想要的只是2010 年 2 月 3 日的文章转储。但请注意:它的大小为 5.6 GB。
If you want, you can just download the entire dump of the wikipedia and work it from there. The one your would probably want is only the articles dump dated 3 feb 2010. But beware: It's 5.6 GB in size.
您可以使用CatScan工具来搜索类别。
此处说明
http://meta.wikimedia.org/wiki/CatScan
搜索示例 - 注意,html 格式最多可显示 1000 个结果。选择 CSV 导出以检索所有结果。另外,请务必根据需要修改类别深度和其他选项。
已经提到的 pywikipediabot 是另一种选择。
You can use the CatScan tool to search categories.
Instructions here
http://meta.wikimedia.org/wiki/CatScan
Example search - note, html format maxes out at 1000 results. Choose CSV export to retrieve all the results. Also, be sure to modify the category depth and other options, as needed.
The pywikipediabot already mentioned is another option.