遵循重定向并编码为 UTF-8 的 Screen scaper
我正在寻找一个 gem(或 gem 的组合),它可以在给定 URL 的情况下以 UTF-8 返回页面内容。如果 URL 发生更改,它也应该遵循重定向。
有谁知道这样的吗?
谢谢!
I'm looking for a gem (or a combination of gems) that can, given an URL, return the page content as UTF-8. It should also follow redirects if the URL is changed.
Does anyone know of such?
Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
你看过Nokogiri吗?它似乎可以满足您在编码方面的需求:
您还可以使用 Mechanize 自动执行一些屏幕抓取操作(点击链接、提交表单等)。 Mechanize 建立在 Nokogiri 之上,因此它是对其的一个很好的补充。
您可能想观看一些网络广播:
http://railscasts.com/episodes/190-screen-scraping-with-nokogiri机械化
http://railscasts.com/episodes/191-mechanize
Have you looked at Nokogiri? It seems to do what you are looking for in terms of encoding:
You can also automate some of your screen scraping with Mechanize (click links, submit forms, etc). Mechanize builds on Nokogiri so it's a nice complement to it.
Some webcasts you may want to look at:
http://railscasts.com/episodes/190-screen-scraping-with-nokogiri
http://railscasts.com/episodes/191-mechanize