网页监控问题

发布于 2024-11-15 17:55:30 字数 205 浏览 1 评论 0原文

有许多不同的网站可以让您监视特定网页的任何更改,例如 watchthatpage.com 或 page2rss.com

我对这些网站的工作方式感兴趣,这意味着它们如何确定某些网页是否已更改已更新。他们是否只是复制页面中的所有文本,将其存储在内存中,然后将其与网站页面的内容进行比较? 或者他们可能会寻找一些特定的 html 元素并比较它们的值?

请帮我找到答案。

There are a number of different websites that let you monitor specifi web pages for any changes, such as watchthatpage.com or page2rss.com

I'm interested in the way how those sites are working, meaning how do they determine whether some web page is updated. Do they just copy all the text from the page, store it in memory and compare it later to the content of a site's page?
Or maybe they look for some specific html elements and compare theirs values?

Please help me to find the answer.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

爱冒险 2024-11-22 17:55:30

我怀疑他们存储了全部内容,并且每次检查时都会进行比较。如果不同,则发送警报,否则不发送警报。

I suspect that they store the entire contents, and every time they check, they compare. If different, send alert, otherwise don't.

厌味 2024-11-22 17:55:30

有两种方法可以在我的脑海中完成此任务。

第一个是提取 HTML 并执行简单的 string.compare。

第二种方法是执行 HEAD 请求,请参阅此处

There's two ways this can be done just off the top of my head.

The first is to pull the HTML and do a simple string.compare.

The second way, would be to do a HEAD request See, section 9.4 here

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文