HTML 页面有什么独特之处？

发布于 2024-08-20 11:22:19 字数 258 浏览 8 评论 0原文

我的问题主要是关于验证。什么可以用来确定 HTML 文档中的唯一性？（文档可以具有一定程度的动态性。）

可以使用或生成什么来识别页面是正确的页面，准确度达到 99%，考虑到您可以存储某种“指纹”您正在验证的页面的？

为了清楚起见，这是加密/https 等的附加功能。该页面可以并且将会根据特定用户随动态内容而变化，但是指纹也可以，但由于其性质，单个指纹不能 100% 匹配 100% 的用户的动态内容。因此，哈希在这里不起作用，至少不能以简单的形式起作用。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

慵挽 2024-08-27 11:22:19

HTML 页面的唯一指纹很容易计算。根据以下内容构建哈希：

协议：http 或 https
URL：domain + uri
Query_string
精确到字节的页面内容

可选的一些标头：

Server
Content-Type 这是重要的
Content-encoding 这可能太多
想法了？请随意编辑它们。

这假设您没有将任何数据发布到页面。

回复收藏 0 原文

雨巷深深 2024-08-27 11:22:19

如果你不检查主机的 IP，你连 1% 的把握都没有。
接下来是加密。（如果没有这个，您可能会成为 ARP 中毒的受害者（仅在 LAN 网络中））。

HTTPS 中的密钥必须始终相同。

如果它发生变化，则意味着有人在作弊或密钥已更新（密钥有过期日期。）

回复收藏 0 原文

节枝 2024-08-27 11:22:19

页面的指纹是主机名、端口和路径。这是唯一保证在网络上唯一的东西。我想您还可以包含缓存标头（Last-Modified）以查看它是否更改。

最重要的是，如果你对 html 进行哈希处理，即使最后修改的标头发生了变化，你也可以看到它是否发生了变化。

回复收藏 0 原文

煞人兵器 2024-08-27 11:22:19

假设您想要存储 HTML 页面的“指纹”，以便稍后在它完全匹配时识别它，只需使用 HTML 页面的简单哈希摘要即可。

除非你进一步澄清这个问题，否则我看不出它是 HTML 或它所在的浏览器有什么关系。

但是，这不会告诉你该页面是否位于同一位置。为此，您需要存储其他详细信息，例如主机/IP 和路径。

回复收藏 0 原文

若水微香 2024-08-27 11:22:19

如果您可以获得两个页面的文本版本，您可以比较它们。您可以确定页面差异可接受的最大范围。

有一个 Unix util（称为 diff）。网上也有该工具的 win32 版本。维基百科有一篇关于 diff 的文章： http://en.wikipedia.org/wiki/Diff 。

wiki 文章列出了免费的文件比较工具，“另请参阅”部分包含讨论文件比较工具和增量编码的其他文章的链接。

“编辑距离度量”也可能是一种有趣的方法。

CodeProject 上有一个不错的 C# Difference 引擎。由于我的低点，我无法发布另一个链接，但文章标题是：“A Generic, Reusable Diff Algorithm in C#”。

回复收藏 0 原文

伴我老 2024-08-27 11:22:19

即使您有确切的主机名、端口和路径，如果有应用服务器为网页提供服务或者网络服务器正在插入广告内容，内容仍然可能会有所不同。

如果您能够可靠地识别 HTML 中动态的部分（例如不断更新的广告或时间戳），那么我会首先对数据进行标准化。我会删除所有空格字符（空格、制表符、换行符），然后对该内容进行哈希处理。

我不会在哈希中包含主机名端口路径，因为这不会向“指纹”添加任何内容。（当您稍后必须重新查询 Web 服务器来比较 HTML 时，该信息会很有用。）

回复收藏 0 原文

~没有更多了~

关于作者

櫻之舞

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

HTML 页面有什么独特之处？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

HTML 页面有什么独特之处？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。