当前位置：文江博客话题详情

如何使用 Java 搜索网站的损坏链接？

发布于 2024-11-19 19:26:26 字数 89 浏览 10 评论 0原文

我想扫描一些网站寻找损坏的链接，最好使用 Java。有什么提示我如何开始这样做吗？

（我知道有一些网站可以这样做，但我想制作自己的个性化日志文件）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

同尘 2024-11-26 19:26:26

编写网络爬虫并不像读取静态 HTML 那么简单，如果页面使用 JavaScript 来修改 DOM，那么它就会变得复杂。您还需要查找您已经访问过的页面（又名蜘蛛陷阱）？如果该网站是纯静态 HTML，那么就去做吧...但是如果该网站使用 Jquery 并且很大，那么它会很复杂。

如果您的网站都是静态的、小型的并且很少或没有 JS，那么请使用已经列出的答案。

或者

您可以使用Heritrix，然后解析它的crawl.log以查找404。关于crawl.log的Heritrix文档

或者如果你最常写你的own：

你可以使用类似 HTMLUnit （它有一个 JavaScript 引擎）的东西来加载页面，然后查询 DOM 对象链接。然后将每个链接放入“未访问”队列中，然后从未访问队列中提取链接以获取下一个要加载的网址，如果页面加载失败，请报告。

为了避免重复页面（蜘蛛陷阱），您可以对每个链接进行哈希处理并保留访问过的页面的哈希表（请参阅CityHash< /a>）。在将链接放入未访问队列之前，请根据已访问哈希表检查它。

为了避免离开您的站点，请在将 URL 添加到未访问队列之前检查该 URL 是否位于安全域列表中。如果您想确认离域链接是否良好，请将它们保留在离域队列中。然后稍后使用 URL.getContent(url) 加载此队列中的每个链接以查看它们是否有效（比使用 HTMLUnit 更快，并且您无论如何都不需要解析页面。）。

回复收藏 0 原文

渡你暖光 2024-11-26 19:26:26

编写一个递归检查链接的函数。
伪代码：

function checklinks(String url){
     try{
         content=HTTP.getContents(url);
         String[] links=content.getAllRegexMatches('href="(http://.*?)"');
         foreach(links as String link)
              checklinks(link)
     } catch (Exception e) {
         System.out.println("Link "+url" failed");
     }
}

根据链接，您必须通过添加相对于当前 URL 的 url 来完成传递到下一个递归的链接。

Write a function which recursively checks links.
Pseudo Code:

function checklinks(String url){
     try{
         content=HTTP.getContents(url);
         String[] links=content.getAllRegexMatches('href="(http://.*?)"');
         foreach(links as String link)
              checklinks(link)
     } catch (Exception e) {
         System.out.println("Link "+url" failed");
     }
}

Depending on the Links you have to complete the link passed to the next recursion by adding the url relative to the current URL.

回复收藏 0 原文