使用 python 从网站中提取 HTML 部分
我目前正在开发一个项目,该项目涉及使用 Python 检查网页 HTML 的程序。我的程序必须监视网页,当 HTML 发生更改时,它将完成一组操作。我的问题是如何提取网页的一部分,以及如何监控网页的 HTML 并在发生更改时几乎立即报告。谢谢。
I'm currently working on a project that involves a program to inspect a web page's HTML using Python. My program has to monitor a web page, and when a change is made to the HTML, it will complete a set of actions. My question is how do you extract just part of a web page, and how do you monitor a web page's HTML and report almost instantly when a change is made. Thanks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
过去我编写了自己的解析器。如今 HTML 是 HTML 5,更多的语句,更多的 Javascript,开发人员及其编辑所做的很多蹩脚的事情,比如
一些 Web 框架/开发人员错误的编码会在每个请求上更改 HTTP 标头中的 Last-Modified,即使对于人类来说也是如此您在页面上阅读的文本不会更改。
我建议你使用 BeautifulSoup 进行解析;您必须自己仔细选择要观看的内容来决定网页是否被修改。
其简介:
In the past I wrote my own parsers. Nowadays HTML is HTML 5, more statements,more Javascript, a lot of crappiness done by developers and their editors, like
And some web frameworks / developers bad coding change the Last-Modified in the HTTP header on every request, even if for a human person the text you read on the page isn't changed.
I suggest you BeautifulSoup for the parsing stuff; by your own you have to careful choose what to watch to decide if the Web page is modified.
Its intro :
Scrapy 可能是一个很好的起点。 http://doc.scrapy.org/en/latest/intro/overview.html
获取网站的各个部分很容易,只是xml,你可以使用scrapy或beautifulsoup。
Scrapy might be a good place to start. http://doc.scrapy.org/en/latest/intro/overview.html
Getting sections of websites is easy, it is just xml, you can use scrapy or beautifulsoup.