遵循重定向并编码为 UTF-8 的 Screen scaper

发布于 2024-10-31 08:52:19 字数 112 浏览 7 评论 0原文

我正在寻找一个 gem(或 gem 的组合),它可以在给定 URL 的情况下以 UTF-8 返回页面内容。如果 URL 发生更改,它也应该遵循重定向。

有谁知道这样的吗?

谢谢!

I'm looking for a gem (or a combination of gems) that can, given an URL, return the page content as UTF-8. It should also follow redirects if the URL is changed.

Does anyone know of such?

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

臻嫒无言 2024-11-07 08:52:19

你看过Nokogiri吗?它似乎可以满足您在编码方面的需求:

编码:

字符串始终存储为 UTF-8
内部。返回文本的方法
值将始终返回 UTF-8
编码的字符串。返回的方法
XML(如 to_xml、to_html 和
inside_html) 将返回一个字符串
像源文档一样编码。

您还可以使用 Mechanize 自动执行一些屏幕抓取操作(点击链接、提交表单等)。 Mechanize 建立在 Nokogiri 之上,因此它是对其的一个很好的补充。

您可能想观看一些网络广播:

Have you looked at Nokogiri? It seems to do what you are looking for in terms of encoding:

ENCODING:

Strings are always stored as UTF-8
internally. Methods that return text
values will always return UTF-8
encoded strings. Methods that return
XML (like to_xml, to_html and
inner_html) will return a string
encoded like the source document.

You can also automate some of your screen scraping with Mechanize (click links, submit forms, etc). Mechanize builds on Nokogiri so it's a nice complement to it.

Some webcasts you may want to look at:

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文