使用Scrapy解析站点地图
我希望能够使用 scrapy 来抓取站点地图上的链接。我对这个应用程序了解不多,所以我对您可以提供的任何链接/信息/文档感兴趣。
谢谢
I want to be able to use scrapy to crawl links on a sitemap. I don't know much about this application, so I would be interested in any links/info/documentation you could provide.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
为此,Scrapy 主干中刚刚添加了一个新的通用蜘蛛。它将在下一个版本(Scrapy 0.14)中提供
A new generic spider has just been added to Scrapy trunk, for this purpose. It will be available on next release (Scrapy 0.14)
所有文档均位于 http://doc.scrapy.org/。这些教程也可以在 scrapy.org 上找到。
至于你的问题,请参阅这个问题:如何使用scrapy的XmlFeedSpider解析sitemap.xml文件?
All of the documentation is at http://doc.scrapy.org/. The tutorials can be found at scrapy.org also.
As for your question, see this SO question: how to parse a sitemap.xml file using scrapy's XmlFeedSpider?