如何从r中的多个链接中刮擦相同类型的数据

发布于 2025-02-08 13:34:51 字数 199 浏览 2 评论 0原文

我在dataFrame的列中具有链接，并希望从一次

page <- read_html("https://www.airbnb.co.in/users/show/129534814")
page %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()

原文

I have link in a column in dataframe and wanted to extract same type of data from different link all in once like this

page <- read_html("https://www.airbnb.co.in/users/show/129534814")
page %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不如归去 2025-02-15 13:34:51

如果您的链接在这样的数据框架中：

df <- data.frame(links = c( "https://www.airbnb.co.in/users/show/446820235",
                            "https://www.airbnb.co.in/users/show/221530395",
                            "https://www.airbnb.co.in/users/show/74933177",
                            "https://www.airbnb.co.in/users/show/213865220",
                            "https://www.airbnb.co.in/users/show/362873365",
                            "https://www.airbnb.co.in/users/show/167648591",
                            "https://www.airbnb.co.in/users/show/143273640"))

那么您可以刮擦文本并将其存储在数据框架中：

library(rvest)

df$greeting <- sapply(df$links, function(url) {
   read_html(url) %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()
}, USE.NAMES = FALSE)

df
#>                                           links                     greeting
#> 1 https://www.airbnb.co.in/users/show/446820235    Hi, I’m LuxurybookingsFZE
#> 2 https://www.airbnb.co.in/users/show/221530395           Hi, I’m Blueground
#> 3  https://www.airbnb.co.in/users/show/74933177 Hi, I’m Deluxe Holiday Homes
#> 4 https://www.airbnb.co.in/users/show/213865220                 Hi, I’m Andy
#> 5 https://www.airbnb.co.in/users/show/362873365             Hi, I’m Key View
#> 6 https://www.airbnb.co.in/users/show/167648591              Hi, I’m Gregory
#> 7 https://www.airbnb.co.in/users/show/143273640            Hi, I’m AlNisreen

If your links are in a data frame like this:

df <- data.frame(links = c( "https://www.airbnb.co.in/users/show/446820235",
                            "https://www.airbnb.co.in/users/show/221530395",
                            "https://www.airbnb.co.in/users/show/74933177",
                            "https://www.airbnb.co.in/users/show/213865220",
                            "https://www.airbnb.co.in/users/show/362873365",
                            "https://www.airbnb.co.in/users/show/167648591",
                            "https://www.airbnb.co.in/users/show/143273640"))

Then you can scrape the text and store it in your data frame like this:

library(rvest)

df$greeting <- sapply(df$links, function(url) {
   read_html(url) %>% html_nodes("._a0kct9 ._14i3z6h") %>% html_text()
}, USE.NAMES = FALSE)

df
#>                                           links                     greeting
#> 1 https://www.airbnb.co.in/users/show/446820235    Hi, I’m LuxurybookingsFZE
#> 2 https://www.airbnb.co.in/users/show/221530395           Hi, I’m Blueground
#> 3  https://www.airbnb.co.in/users/show/74933177 Hi, I’m Deluxe Holiday Homes
#> 4 https://www.airbnb.co.in/users/show/213865220                 Hi, I’m Andy
#> 5 https://www.airbnb.co.in/users/show/362873365             Hi, I’m Key View
#> 6 https://www.airbnb.co.in/users/show/167648591              Hi, I’m Gregory
#> 7 https://www.airbnb.co.in/users/show/143273640            Hi, I’m AlNisreen

回复收藏 0 原文

~没有更多了~