Hpricot,从文档中获取所有文本

发布于 2024-07-30 17:07:14 字数 746 浏览 5 评论 0原文

我刚刚开始学习 Ruby。 非常好的语言,非常喜欢。

我正在使用非常方便的 Hpricot HTML 解析器。

我想要做的是从页面中获取所有文本,不包括 HTML 标签。

示例:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
    <head>
        <title>Data Protection Checks</title>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    </head>
    <body>
        <div>
        This is what I want to grab.
        </div>
        <p>
        I also want to grab this text
        </p>
    </body>
</html>

我基本上只想抓取文本,所以我最终得到一个像这样的字符串:

“这是我想要抓取的内容。我也想抓取这个文本”

什么是最好的这样做的方法?

干杯

埃夫

I have just started learning Ruby. Very cool language, liking it a lot.

I am using the very handy Hpricot HTML parser.

What I am looking to do is grab all the text from the page, excluding the HTML tags.

Example:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
    <head>
        <title>Data Protection Checks</title>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    </head>
    <body>
        <div>
        This is what I want to grab.
        </div>
        <p>
        I also want to grab this text
        </p>
    </body>
</html>

I am basically wanting to grab only the text so I end up with a string like so:

"This is what I want to grab. I also want to grab this text"

What would be the best method of doing this?

Cheers

Eef

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

暖树树初阳… 2024-08-06 17:07:15

您可以使用 XPath text() 选择器来完成此操作。

require 'hpricot'
require 'open-uri'

doc  = open("http://stackoverflow.com/") { |f| Hpricot(f) }
text = (doc/"//*/text()") # array of text values
puts text.join("\n")

然而,这是一个相当昂贵的操作。 可能有更好的解决方案。

You can do this using the XPath text() selector.

require 'hpricot'
require 'open-uri'

doc  = open("http://stackoverflow.com/") { |f| Hpricot(f) }
text = (doc/"//*/text()") # array of text values
puts text.join("\n")

However this is a fair expensive operation. A better solution might be available.

压抑⊿情绪 2024-08-06 17:07:15

您可能想尝试inner_text。

像这样:

h = Hpricot("<html><body><a href='http://yoursite.com?utm=trackmeplease'>http://yoursite.com</a> is <strong>awesome</strong>")
puts h.inner_text
http://yoursite.com is awesome

You might want to try inner_text.

Like this:

h = Hpricot("<html><body><a href='http://yoursite.com?utm=trackmeplease'>http://yoursite.com</a> is <strong>awesome</strong>")
puts h.inner_text
http://yoursite.com is awesome
不疑不惑不回忆 2024-08-06 17:07:15

@weppos:这会好一点:

text = doc/"//p|div/text()" # array of text values

@weppos: This will be bit better:

text = doc/"//p|div/text()" # array of text values
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文