屏幕抓取使用 javaScript 和框架的网页
我想从 www.marktplaats.nl 抓取数据。我想在 Excel/Access 中分析抓取的描述、价格、日期和视图。
我尝试使用 Ruby(nokogiri、scrapi)抓取数据,但没有任何效果。 (在其他网站上它运行良好)主要问题是,例如selectorgadget和附加firebug(Firefox)找不到任何我可以用来抓取页面的css。在其他网站上,我可以使用selectorgadget或firebug提取css,并将其与nokogiri或scrapi一起使用。 由于缺乏经验,很难识别问题,因此寻找解决方案并不容易。
您能告诉我从哪里开始解决这个问题以及我在哪里可以找到有关类似抓取过程的更多信息吗?
提前致谢!
I want to scrape data from www.marktplaats.nl . I want to analyze the scraped description, price, date and views in Excel/Access.
I tried to scrape data with Ruby (nokogiri, scrapi) but nothing worked. (on other sites it worked well) The main problem is that for example selectorgadget and the add-on firebug (Firefox) don’t find any css I can use to scrape the page. On other sites I can extract the css with selectorgadget or firebug and use it with nokogiri or scrapi.
Due to lack of experience it is difficult to identify the problem and therefore searching for a solution isn’t easy.
Can you tell me where to start solving this problem and where I maybe can find more info about a similar scraping process?
Thanks in advance!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
我使用了 Excel Web 查询,效果非常好。如果您搜索 mrexcel,您可以在 youtube 上找到很多有关使用 excel 进行抓取的信息。
谢谢,梅洛
I used excel web query and it works perfect. You can find a lot about scraping with excel on youtube if you search for mrexcel.
Thanks, Mello
您可以尝试 IRobotSoft 网络抓取工具。它具有良好的框架支持并且是免费的。
You can try IRobotSoft web scraper. It has good frame support and is free.
iframe 不是问题 - 只需直接访问嵌入的 iframe URL 即可。你会发现它会在浏览器中重定向,除非你禁用 JavaScript。
描述和日期可以直接从 HTML 源代码中提取。然而,价格是图像,这将使抓取它们变得更加麻烦。
Iframes aren't a problem - just access the embedded iframe URL directly. You will find that it redirects in the browser unless you disable JavaScript.
Description and date can be extracted straight from HTML source. However prices are images which will make scraping them more cumbersome.