当前位置：文江博客话题详情

以编程方式登录网站以进行屏幕抓取的最佳方法是什么？（最好是Python）

发布于 2024-07-19 06:02:10 字数 105 浏览 3 评论 0原文

我希望能够以编程方式登录网站并定期从该网站获取一些信息。可以使这件事尽可能简单的最佳工具是什么？我更喜欢某种类型的 Python 库，因为我想更加精通 Python，但我愿意接受任何建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

春夜浅 2024-07-26 06:02:10

您可以尝试使用 Mechanize (http://wwwsearch.sourceforge.net/mechanize/) 进行程序化网络-浏览，并且一定要使用 Beautiful Soup (http://www.crummy.com/software/BeautifulSoup/ ）用于抓取。

回复收藏 0 原文

梦中的蝴蝶 2024-07-26 06:02:10

我们大多数人使用 urllib2 来获取页面；它可以处理各种形式的身份验证和 cookie 收集。然后Beautiful Soup解析结果。

回复收藏 0 原文

耳根太软 2024-07-26 06:02:10

我曾经写过一个Python脚本来自动登录vBulletin论坛。困难的部分是知道如何正确地形成登录请求，而这是图书馆无法帮助您的。我发现 Live Http Headers - Firefox 的一个插件 - 对于查看客户端之间发送的内容非常有帮助和服务器在登录过程中。

我也同意其他人的观点，美丽的汤非常棒。

回复收藏 0 原文

旧情别恋 2024-07-26 06:02:10

我建议使用 twill 它可以轻松完成登录过程。然后使用 beautifulsoup 等。
如上所述。我从未尝试过机械化，但看起来不错。

回复收藏 0 原文

丑丑阿 2024-07-26 06:02:10

只是为了屏幕抓取，您可以使用 url lib + pyqyery 的组合。
https://pythonhosted.org/pyquery/

回复收藏 0 原文

~没有更多了~

关于作者

酒绊

暂无简介

0 文章

0 评论

22 人气

关注发私信

yangzhenyu123

文章 0 评论 0

关注

lvzun

文章 0 评论 0

关注

执笔绘流年

文章 0 评论 0

关注

芯好空

文章 0 评论 0

关注

始于初秋

文章 0 评论 0

关注

谁与争疯

文章 0 评论 0

友情链接

文江博客

以编程方式登录网站以进行屏幕抓取的最佳方法是什么？（最好是Python）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签