如何在 R 中读取和解析网页内容
我想阅读 URL 的内容(例如 http://www.haaretz.com/ )在 R 中。我想知道我该怎么做
I'd like to read the contents of a URL (e.q., http://www.haaretz.com/) in R. I am wondering how I can do it
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
不太确定你想如何处理该页面,因为它真的很乱。正如我们在这个著名的 stackoverflow 问题中重新学习的 ,在 html 上执行正则表达式不是一个好主意,因此您肯定会希望使用 XML 包来解析它。
下面是一个帮助您入门的示例:
这会产生一个主要由网页文本(以及一些 javascript)组成的字符向量:
Not really sure how you want to process that page, because it's really messy. As we re-learned in this famous stackoverflow question, it's not a good idea to do regex on html, so you will definitely want to parse this with the XML package.
Here's an example to get you started:
This results in a character vector of mostly just webpage text (along with some javascript):
您最好的选择可能是 XML 包 - 例如参见这个 上一个问题。
Your best bet may be the XML package -- see for example this previous question.
我知道你要求 R。但也许 python+beautifullsoup 是这里的前进方向?然后用 R 进行分析,你用 beautifullsoup 刮掉了屏幕吗?
I know you asked for R. But maybe python+beautifullsoup is the way forward here? Then do your analysis with R you have scraped the screen with beautifullsoup?