如何从r中的多个链接中刮擦相同类型的数据

发布于 2025-02-08 13:34:51 字数 199 浏览 2 评论 0原文

我在dataFrame的列中具有链接,并希望从一次

page <- read_html("https://www.airbnb.co.in/users/show/129534814")
page %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()

I have link in a column in dataframe and wanted to extract same type of data from different link all in once like this

page <- read_html("https://www.airbnb.co.in/users/show/129534814")
page %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

不如归去 2025-02-15 13:34:51

如果您的链接在这样的数据框架中:

df <- data.frame(links = c( "https://www.airbnb.co.in/users/show/446820235",
                            "https://www.airbnb.co.in/users/show/221530395",
                            "https://www.airbnb.co.in/users/show/74933177",
                            "https://www.airbnb.co.in/users/show/213865220",
                            "https://www.airbnb.co.in/users/show/362873365",
                            "https://www.airbnb.co.in/users/show/167648591",
                            "https://www.airbnb.co.in/users/show/143273640"))

那么您可以刮擦文本并将其存储在数据框架中:

library(rvest)

df$greeting <- sapply(df$links, function(url) {
   read_html(url) %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()
}, USE.NAMES = FALSE)

df
#>                                           links                     greeting
#> 1 https://www.airbnb.co.in/users/show/446820235    Hi, I’m LuxurybookingsFZE
#> 2 https://www.airbnb.co.in/users/show/221530395           Hi, I’m Blueground
#> 3  https://www.airbnb.co.in/users/show/74933177 Hi, I’m Deluxe Holiday Homes
#> 4 https://www.airbnb.co.in/users/show/213865220                 Hi, I’m Andy
#> 5 https://www.airbnb.co.in/users/show/362873365             Hi, I’m Key View
#> 6 https://www.airbnb.co.in/users/show/167648591              Hi, I’m Gregory
#> 7 https://www.airbnb.co.in/users/show/143273640            Hi, I’m AlNisreen

If your links are in a data frame like this:

df <- data.frame(links = c( "https://www.airbnb.co.in/users/show/446820235",
                            "https://www.airbnb.co.in/users/show/221530395",
                            "https://www.airbnb.co.in/users/show/74933177",
                            "https://www.airbnb.co.in/users/show/213865220",
                            "https://www.airbnb.co.in/users/show/362873365",
                            "https://www.airbnb.co.in/users/show/167648591",
                            "https://www.airbnb.co.in/users/show/143273640"))

Then you can scrape the text and store it in your data frame like this:

library(rvest)

df$greeting <- sapply(df$links, function(url) {
   read_html(url) %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()
}, USE.NAMES = FALSE)

df
#>                                           links                     greeting
#> 1 https://www.airbnb.co.in/users/show/446820235    Hi, I’m LuxurybookingsFZE
#> 2 https://www.airbnb.co.in/users/show/221530395           Hi, I’m Blueground
#> 3  https://www.airbnb.co.in/users/show/74933177 Hi, I’m Deluxe Holiday Homes
#> 4 https://www.airbnb.co.in/users/show/213865220                 Hi, I’m Andy
#> 5 https://www.airbnb.co.in/users/show/362873365             Hi, I’m Key View
#> 6 https://www.airbnb.co.in/users/show/167648591              Hi, I’m Gregory
#> 7 https://www.airbnb.co.in/users/show/143273640            Hi, I’m AlNisreen
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文