Java CSS 爬虫
我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。
我正在尝试通过 Xapian、Nutch 和 Heritrix 来解决问题。它们似乎都有点复杂。如果有人有任何经验或建议,我很乐意听到。也欢迎针对上述任何平台提供易于理解的教程。
大卫
I'm looking for a web crawler with the ability to grab the page's CSS. I don't need any other fancy crawling abilities.
I'm trying to make my way through Xapian, Nutch and Heritrix. They all seem to be a bit complex. If anyone has any experience or recommendation I would love to hear. An accessible tutorial to any of the above platforms, is also welcomed.
David
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
你是对的,不要使用它们,它们太重了。
使用:Crawler4j
按照现场教程制作一个简单的爬虫。
您需要的唯一更改是在 MyCrawler.java 中:
从 FILTERS 模式中删除“css”
在访问()方法中,输入一个简单的条件,如下所示:
就是这样 - 你很好!
You are right, don't use those, they are way too heavy.
Use: Crawler4j
Follow the onsite tutorial for a simple crawler.
The only change you need is in MyCrawler.java:
Remove "css" from the FILTERS pattern
In the visit() method, put a simple condition as follows:
That's it - you are good!
我建议使用纯 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中(请参阅 Heritrix)。
它使事情变得简单,而不是使用重型爬虫。由于每个域的 CSS 很少,因此您可以安全地忽略域内跟随的复杂 url。
干杯!
I recommend using plain HTTPClient and simple regex. You can store the responses in file, database or archive of your own (See Heritrix).
It keeps things simple, instead of using a heavy weighted crawler. Since the there are few CSS per domain, you can safely ignore complex url following within domain.
Cheers !