通过 python 提取维基百科文章的介绍部分

发布于 2024-10-04 09:02:28 字数 134 浏览 10 评论 0原文

我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但没有看到这部分包含的任何特殊标签。

任何人都可以给我一个快速解决方案吗?我正在写 python 脚本。

谢谢

I want to extract the introduction part of a wikipedia article(ignoring all other stuff, including tables, images and other parts). I looked at html source of the articles, but I don't see any special tag which this part is wrapped in.

Can anyone give me a quick solution to this? I'm writing python scripts.

thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

十年九夏 2024-10-11 09:02:28
  1. 您可能需要检查 mwlib 来解析维基百科源
  2. 或者,使用 wikidump lib
  3. 通过 BeautifulSoup

啊,关于这个主题已经有一个问题:

  1. 解析维基百科转储
  2. 如何通过 python 从 mediawiki 标记文章中解析/提取数据
  1. You may want to check mwlib to parse the wikipedia source
  2. Alternatively, use the wikidump lib
  3. HTML screen scraping through BeautifulSoup

Ah, there is a question already on SO on this topic:

  1. Parsing a Wikipedia dump
  2. How to parse/extract data from a mediawiki marked-up article via python
孤凫 2024-10-11 09:02:28

我认为您通常可以通过获取整页、删除所有表格,然后查找第一个序列

...

来找到介绍文本。标记后的块。最后一点是这个正则表达式:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

使用 .S 选项来制作 .匹配换行符...

I think you can often get to the intro text by taking the full page, stripping out all the tables, and then looking for the first sequence of <p>...</p> blocks after the marker. That last bit would be this regex:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

With the .S option to make . match newlines...

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文