如何使用 Python 和 Mechanize 抓取网站
如何使用 Mechanize 和 Python 来抓取网站,递归地跟踪每个页面上的每个链接?
我在教程和 Mechanize 文档中看到的每个示例都展示了如何遵循浏览“路径”(如果我可以这样称呼它)(例如,转到主页、填充表单、按提交、对响应执行某些操作),而不是抓取整个网站。
How can I use Mechanize with Python to crawl a website, recursively following every link on every page?
Every example I've seen in tutorials and Mechanize documentation shows how to follow a browsing "path" if I can call it that (e.g. go to home page, populate a form, press submit, do something with the response), rather than scraping an entire site.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这里有一些伪代码可以帮助您入门,如果您需要更多,请告诉我:
here is some psudo code to get you started, let me know if you need more: