crawler4j 设置指南
我想设置爬网程序来爬网网站(例如博客),并仅获取网站中的链接并将链接粘贴到文本文件中。您能一步步指导我设置爬虫吗?我正在使用 Eclipse。
I would like to setup the crawler to crawl a website, let say blog, and fetch me only the links in the website and paste the links inside a text file. Can you guide me step by step for setup the crawler? I am using Eclipse.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Jsoup 会做你需要的 html 解析的一切。 Jsoup是一个用于处理html源代码的java api。你可以得到
CSS 和 js 文件)。
等等。
为了您的目的,这里是示例代码。
希望这会对您有所帮助。
Jsoup will do everything you need wrt html parsing. Jsoup is a java api for handling html source code. You can get
css and js files).
and more.
For your purpose, here is the example code.
Hope this will help you.