Hpricot,从文档中获取所有文本
我刚刚开始学习 Ruby。 非常好的语言,非常喜欢。
我正在使用非常方便的 Hpricot HTML 解析器。
我想要做的是从页面中获取所有文本,不包括 HTML 标签。
示例:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Data Protection Checks</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<div>
This is what I want to grab.
</div>
<p>
I also want to grab this text
</p>
</body>
</html>
我基本上只想抓取文本,所以我最终得到一个像这样的字符串:
“这是我想要抓取的内容。我也想抓取这个文本”
什么是最好的这样做的方法?
干杯
埃夫
I have just started learning Ruby. Very cool language, liking it a lot.
I am using the very handy Hpricot HTML parser.
What I am looking to do is grab all the text from the page, excluding the HTML tags.
Example:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Data Protection Checks</title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
</head>
<body>
<div>
This is what I want to grab.
</div>
<p>
I also want to grab this text
</p>
</body>
</html>
I am basically wanting to grab only the text so I end up with a string like so:
"This is what I want to grab. I also want to grab this text"
What would be the best method of doing this?
Cheers
Eef
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
您可以使用 XPath
text()
选择器来完成此操作。然而,这是一个相当昂贵的操作。 可能有更好的解决方案。
You can do this using the XPath
text()
selector.However this is a fair expensive operation. A better solution might be available.
您可能想尝试inner_text。
像这样:
You might want to try inner_text.
Like this:
@weppos:这会好一点:
@weppos: This will be bit better: