当前位置：文江博客话题详情

通过 python 提取维基百科文章的介绍部分

发布于 2024-10-04 09:02:28 字数 134 浏览 10 评论 0原文

我想提取维基百科文章的介绍部分（忽略所有其他内容，包括表格、图像和其他部分）。我查看了文章的 html 源代码，但没有看到这部分包含的任何特殊标签。

任何人都可以给我一个快速解决方案吗？我正在写 python 脚本。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

十年九夏 2024-10-11 09:02:28

您可能需要检查 mwlib 来解析维基百科源
或者，使用 wikidump lib
通过 BeautifulSoup

啊，关于这个主题已经有一个问题：

回复收藏 0 原文

孤凫 2024-10-11 09:02:28

我认为您通常可以通过获取整页、删除所有表格，然后查找第一个序列

...

来找到介绍文本。标记后的块。最后一点是这个正则表达式：

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

使用 .S 选项来制作 .匹配换行符...

I think you can often get to the intro text by taking the full page, stripping out all the tables, and then looking for the first sequence of <p>...</p> blocks after the marker. That last bit would be this regex:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

With the .S option to make . match newlines...

回复收藏 0 原文

~没有更多了~

关于作者

岁月染过的梦

暂无简介

文章

26 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

通过 python 提取维基百科文章的介绍部分

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

通过 python 提取维基百科文章的介绍部分

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。