在 Java 中有效检测损坏的 url

发布于 2024-10-14 05:02:38 字数 66 浏览 8 评论 0 原文

在 Java 中检测损坏的 url (HTTP 404) 最有效的方法是什么？我想循环执行此操作并花费尽可能少的时间。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

尛丟丟 2024-10-21 05:02:39

您只能在请求 URL 后检测到 404：您将收到带有代码的标头（200 或 301 表示重定向，或 404 表示丢失文件），您可以进行检查。

所以你必须执行请求并等待可能的 404。

下面有一个相当好的评论不应该被跳过，所以我在这里重复它：
可能的优化（在现有网址的情况下）：使用 HEAD 请求而不是 GET。

回复收藏 0 原文

寒冷纷飞旳雪 2024-10-21 05:02:39

破坏 URL 的方式有很多种：

语法无效
包含不存在的域
服务器无法访问
服务器不接受连接
服务器响应错误

除了第一种之外，所有这些都可能需要相对较长的时间（平均可能超过一秒），并且由于您正在与另一台计算机通信，因此无法加快速度。

您唯一能做的就是使用线程池。

回复收藏 0 原文

泛滥成性 2024-10-21 05:02:39

您可以建立 URL 连接，通过捕获异常并检查 HTTP 状态代码来验证 URL 是否已损坏。如果未抛出异常且 HTTP 状态为 200 URL 则正常。

但要小心！有时 URL 已损坏，但应用程序会返回状态为 200 的人类可读错误页面。
例如，网站 www.somecompany.com 存在，但页面 www.somecompany.com/foo.html 不再存在。当您尝试到达那里时，您会收到消息“页面不存在”，但 HTTP 状态为 200。这可以通过仅解析页面内容来解决（有时）。