Python-是否有一个模块可以自动从网页上抓取文章内容？

发布于 2024-11-17 21:49:19 字数 128 浏览 0 评论 0原文

我知道有 lxml 和 BeautifulSoup，但这对我的项目不起作用，因为我事先不知道我试图从中抓取文章的网站的 HTML 格式是什么。是否有一个类似于 Readability 的 python 类型模块可以很好地查找文章内容并返回它？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

给妤﹃绝世温柔 2024-11-24 21:49:19

可以使用 PhantomJS (C++) 或 PyPhantomJS (Python)。

它们都是基于 WebKit 的无头浏览器，您可以通过 JavaScript 完全控制它们。因为你可以通过 JavaScript 来控制它，所以我发现抓取文章内容之类的事情真的很容易。

PyPhantomJS 还有一个插件系统，所以这绝对是一个优点。 :)

回复收藏 0 原文

各自安好 2024-11-24 21:49:19

从内容页面提取真实内容不能自动完成 - 至少不能使用标准工具。您必须定义/识别实际内容的存储位置（通过在您自己的 HTML 提取代码中指定相关的 CSS ID 或类）。

回复收藏 0 原文

我不咬妳我踢妳 2024-11-24 21:49:19

使用 HTQL，查询为：
&html_main_text

回复收藏 0 原文

~没有更多了~

关于作者

我爱人

暂无简介

0 文章

0 评论

23 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

Python-是否有一个模块可以自动从网页上抓取文章内容？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签