crawler4j 设置指南

发布于 2024-10-17 14:34:29 字数 78 浏览 2 评论 0原文

我想设置爬网程序来爬网网站(例如博客),并仅获取网站中的链接并将链接粘贴到文本文件中。您能一步步指导我设置爬虫吗?我正在使用 Eclipse。

I would like to setup the crawler to crawl a website, let say blog, and fetch me only the links in the website and paste the links inside a text file. Can you guide me step by step for setup the crawler? I am using Eclipse.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

亚希 2024-10-24 14:34:29

Jsoup 会做你需要的 html 解析的一切。 Jsoup是一个用于处理html源代码的java api。你可以得到

  1. Table,用它你可以解析每一行或每一列。
  2. 所有链接的列表以及该 html 的源导入(例如导入
    CSS 和 js 文件)。
  3. 特定标签的数据。

等等。

为了您的目的,这里是示例代码。

希望这会对您有所帮助。

Jsoup will do everything you need wrt html parsing. Jsoup is a java api for handling html source code. You can get

  1. Table, with which you can parse each and every row or column.
  2. List of all the links and source imports to that html(imports like
    css and js files).
  3. Data of particular tag.

and more.

For your purpose, here is the example code.

Hope this will help you.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文