通过 python 提取维基百科文章的介绍部分
我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但没有看到这部分包含的任何特殊标签。
任何人都可以给我一个快速解决方案吗?我正在写 python 脚本。
谢谢
I want to extract the introduction part of a wikipedia article(ignoring all other stuff, including tables, images and other parts). I looked at html source of the articles, but I don't see any special tag which this part is wrapped in.
Can anyone give me a quick solution to this? I'm writing python scripts.
thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
啊,关于这个主题已经有一个问题:
Ah, there is a question already on SO on this topic:
我认为您通常可以通过获取整页、删除所有表格,然后查找第一个序列
...
来找到介绍文本。标记后的块。最后一点是这个正则表达式:
使用 .S 选项来制作 .匹配换行符...
I think you can often get to the intro text by taking the full page, stripping out all the tables, and then looking for the first sequence of <p>...</p> blocks after the marker. That last bit would be this regex:
With the .S option to make . match newlines...