当前位置：文江博客话题详情

如何检查 URL 是否有 botw.org 上的链接？

发布于 2024-10-20 09:49:02 字数 1539 浏览 2 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浅语花开 2024-10-27 09:49:02

你需要一个爬虫。自己构建一个非常简单（对于小型爬网！）

点击首页（见下文**）
解析页面，提取链接。为此，您需要一个可以处理格式错误的 HTML 的 HTML 解析器。尝试 Jericho 、 TagSoup 、 CyberNecko 或 HtmlTidy。普通的 XML 解析器可能无法满足大多数 HTML 页面的要求，因为它们通常不是格式良好的 XML。
检查您正在寻找的链接。如果找不到它，请添加您以前没有见过的站点本地链接，然后返回步骤 1，重复。

对于小型网站（几千页），您可能可以在内存中完成所有这些操作。

** 使用常用的 java URLConnection或 commons HTTPClient (v4) 用于发出请求。

注意：查找链接 - 链接可以以绝对链接、本地链接或解析为某些基本 href 的形式存在于网站上。您在寻找自己的产品时需要考虑到这一点。最简单的方法是将所有链接转换为绝对形式，注意解析当前页面的基本 href（如果有）。

简单。

回复收藏 0 原文

水水月牙 2024-10-27 09:49:02

您可以使用搜索页面：

示例：
http://search.botw.org/search?q=stackoverflow.com

您无需爬行整个网站，只需验证是否能获得良好的结果。

回复收藏 0 原文

貪欢 2024-10-27 09:49:02

您将必须爬行该网站，解析每个页面的锚点，并测试它们是否与您正在寻找的内容相匹配...假设他们不使用 javascript 来创建链接，很少有人这样做。

标准的 XML 解析器就可以工作，SAX 可能是最容易学习的。

回复收藏 0 原文

~没有更多了~

关于作者

初相遇

暂无简介

0 文章

0 评论

22 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

如何检查 URL 是否有 botw.org 上的链接？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签