如何检查 URL 是否有 botw.org 上的链接?

发布于 2024-10-20 09:49:02 字数 1539 浏览 2 评论 0原文

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

浅语花开 2024-10-27 09:49:02

你需要一个爬虫。自己构建一个非常简单(对于小型爬网!)

  • 点击首页(见下文**)
  • 解析页面,提取链接。为此,您需要一个可以处理格式错误的 HTML 的 HTML 解析器。尝试 JerichoTagSoupCyber​​NeckoHtmlTidy。普通的 XML 解析器可能无法满足大多数 HTML 页面的要求,因为它们通常不是格式良好的 XML。
  • 检查您正在寻找的链接。如果找不到它,请添加您以前没有见过的站点本地链接,然后返回步骤 1,重复。

对于小型网站(几千页),您可能可以在内存中完成所有这些操作。

** 使用常用的 java URLConnection或 commons HTTPClient (v4) 用于发出请求。

注意:查找链接 - 链接可以以绝对链接、本地链接或解析为某些基本 href 的形式存在于网站上。您在寻找自己的产品时需要考虑到这一点。最简单的方法是将所有链接转换为绝对形式,注意解析当前页面的基本 href(如果有)。

简单。

You need a crawler. It's pretty trivial to build one yourself (for small crawls!)

  • hit the front page (see below **)
  • parse the page, extract the links. For this you need an HTML parser that can handle badly formatted HTML. Try Jericho , TagSoup , CyberNecko or HtmlTidy. A normal XML parser probably won't cutr the mustard for most HTML pages, as they are not often well formed XML.
  • check for the link you are looking for. If you can not find it add site local links you have not seen before and go back to step 1, repeat.

For a small site (few thousand pages) you can probably do all this in memory.

** Use the usual java URLConnection or commons HTTPClient (v4) for making the requests.

Note: finding your link - links can exist on a site in absolute, local or resolved to some base href. You'll need to account for this when looking for yours. Easiest is to translate all links to absolute form, taking care to resolve to the current pages base href, if it has one.

Simples.

水水月牙 2024-10-27 09:49:02

您可以使用搜索页面:

示例:
http://search.botw.org/search?q=stackoverflow.com

您无需爬行整个网站,只需验证是否能获得良好的结果。

You can use the search page:

Example:
http://search.botw.org/search?q=stackoverflow.com

Instead of crawling the entire site, you can just verify if you get a good result there.

貪欢 2024-10-27 09:49:02

您将必须爬行该网站,解析每个页面的锚点,并测试它们是否与您正在寻找的内容相匹配...假设他们不使用 javascript 来创建链接,很少有人这样做。

标准的 XML 解析器就可以工作,SAX 可能是最容易学习的。

You will have to crawl the site, parse each page for anchors, and test if they match what you are looking for... assuming they are not using javascript to create links, few people do.

A standard XML parser will work, SAX is probably the easiest to learn.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文