检查网站每个链接的最佳方法是什么?
我想创建一个跟踪网站每个链接的爬虫并检查 URL 以查看其是否有效。现在我的代码使用 url.openStream()
打开 URL。
那么创建爬虫的最佳方法是什么?
I want to create a crawler that follows each link of a site and check the URL to see if it works. Now my code opens the URL using url.openStream()
.
So what is the best way to create a crawler?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
使用 HTML 解析器,例如 Jsoup。
您可能希望在该循环内发送一个 HEAD 以使其更加高效,但是您必须使用
URLConnection
来代替,因为 Jsoup 的设计不支持它(HEAD 不返回任何内容) 。Use a HTML parser like Jsoup.
You may want to send a HEAD instead inside that loop to make it more efficient, but then you'll have to use
URLConnection
instead as Jsoup by design doesn't support it (a HEAD returns no content).使用内部链接分析器工具来分析搜索引擎蜘蛛可以在您网站的特定页面上检测到的链接。搜索...最佳实践内部链接。链接数量:早在 2008 年,Matt Cutts(Google 网络垃圾邮件团队负责人)就建议将链接数量限制为每页最多 100 个链接。
Use the internal link analyzer tool to analyze the links search engine spiders can detect on a specific page of your website. Search ... Best practices internal links. Number of links: Back in 2008, Matt Cutts (head of Google's Web-spam team) recommended limiting the number of links to a maximum of 100 links per page.