当前位置：文江博客话题详情

Java CSS 爬虫

发布于 2024-10-12 17:21:28 字数 156 浏览 9 评论 0原文

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix 来解决问题。它们似乎都有点复杂。如果有人有任何经验或建议，我很乐意听到。也欢迎针对上述任何平台提供易于理解的教程。

大卫

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

始终不够爱げ你 2024-10-19 17:21:28

你是对的，不要使用它们，它们太重了。

使用：Crawler4j

按照现场教程制作一个简单的爬虫。

您需要的唯一更改是在 MyCrawler.java 中：
从 FILTERS 模式中删除“css”
在访问（）方法中，输入一个简单的条件，如下所示：

if (url.contains(".css")) {
    // do what you need with it
}

就是这样 - 你很好！

You are right, don't use those, they are way too heavy.

Use: Crawler4j

Follow the onsite tutorial for a simple crawler.

The only change you need is in MyCrawler.java:
Remove "css" from the FILTERS pattern
In the visit() method, put a simple condition as follows:

if (url.contains(".css")) {
    // do what you need with it
}

That's it - you are good!

回复收藏 0 原文

红焚 2024-10-19 17:21:28

我建议使用纯 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中（请参阅 Heritrix）。

它使事情变得简单，而不是使用重型爬虫。由于每个域的 CSS 很少，因此您可以安全地忽略域内跟随的复杂 url。

干杯！

回复收藏 0 原文

~没有更多了~

关于作者

眉黛浅

暂无简介

0 文章

0 评论

676 人气

关注发私信

隔纱相望

文章 0 评论 0

关注

昵称有卵用

文章 0 评论 0

关注

梨涡

文章 0 评论 0

关注

蓝咒

文章 0 评论 0

关注

白芷

文章 0 评论 0

关注

樱娆

文章 0 评论 0

友情链接

文江博客

Java CSS 爬虫

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

Java CSS 爬虫

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

隔纱相望

昵称有卵用

梨涡

蓝咒

白芷

樱娆

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。