Java CSS 爬虫

发布于 2024-10-12 17:21:28 字数 156 浏览 9 评论 0原文

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix 来解决问题。它们似乎都有点复杂。如果有人有任何经验或建议,我很乐意听到。也欢迎针对上述任何平台提供易于理解的教程。

大卫

I'm looking for a web crawler with the ability to grab the page's CSS. I don't need any other fancy crawling abilities.

I'm trying to make my way through Xapian, Nutch and Heritrix. They all seem to be a bit complex. If anyone has any experience or recommendation I would love to hear. An accessible tutorial to any of the above platforms, is also welcomed.

David

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

始终不够爱げ你 2024-10-19 17:21:28

你是对的,不要使用它们,它们太重了。

使用:Crawler4j

按照现场教程制作一个简单的爬虫。

您需要的唯一更改是在 MyCrawler.java 中:
从 FILTERS 模式中删除“css”
在访问()方法中,输入一个简单的条件,如下所示:

if (url.contains(".css")) {
    // do what you need with it
}

就是这样 - 你很好!

You are right, don't use those, they are way too heavy.

Use: Crawler4j

Follow the onsite tutorial for a simple crawler.

The only change you need is in MyCrawler.java:
Remove "css" from the FILTERS pattern
In the visit() method, put a simple condition as follows:

if (url.contains(".css")) {
    // do what you need with it
}

That's it - you are good!

红焚 2024-10-19 17:21:28

我建议使用纯 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中(请参阅 Heritrix)。

它使事情变得简单,而不是使用重型爬虫。由于每个域的 CSS 很少,因此您可以安全地忽略域内跟随的复杂 url。

干杯!

I recommend using plain HTTPClient and simple regex. You can store the responses in file, database or archive of your own (See Heritrix).

It keeps things simple, instead of using a heavy weighted crawler. Since the there are few CSS per domain, you can safely ignore complex url following within domain.

Cheers !

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文