当前位置：文江博客话题详情

求教：怎样解决Jsoup翻页问题？

发布于 2022-09-02 09:25:55 字数 370 浏览 16 评论 0

请教一个问题哈：

Jsoup官方文档里，重点讲了怎么解析网页，但没很好的讲解怎么download这个问题。
载入一个网页，就这么干巴巴一句：

Document doc = Jsoup.connect("http://example.com/").get();

更别没有提到翻页、判断是否重复爬去等问题。

这个是不是说，用其他的爬虫，比如crawler4j或者HttpClient，先爬取网页，然后再使用Jsoup来解析？

还是说Jsoup能强大到先爬取再解析？

还有，对于这个问题，能否推荐几个英文关键词，我去google上搜一下？
水平不高，连关键词是什么都不知道，请见谅。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

痴骨ら 2022-09-09 09:25:55

JSoup帮你发送http请求，获取返回的HTML内容，保存到Document对象中，再提供一套类jQuery的API查询解析HTML文档内的信息

翻页每个站点有特定的URL请求，或JSON、JSONP请求，这个需要你自己组织处理

你可以使用HttpClient等爬虫类库，获取HTML原始内容，构建成JSOUP的Document对象，让JSOUP解析出内容，然后保存到你期望的持久化方案中（本地文件，数据库，内存...）

是否爬虫了，是否需要通过代理去爬（如何反爬）不是JSOUP应该干的活，就像HttpClient负责爬取内容，但不会解析内容一样....

最美的太阳 2022-09-09 09:25:55

爬虫一般会先爬一个种子页面，里面有所有页面url的规则，通过这个种子再去爬其他页面。

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

玍銹的英雄夢

文章 0 评论 0

我不会写诗

文章 0 评论 0

十六岁半

文章 0 评论 0

浸婚纱

文章 0 评论 0

qq_kJ6XkX

文章 0 评论 0

旧伤还要旧人安

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文