这个 URL 循环有什么错误？

发布于 2025-01-14 23:36:32 字数 551 浏览 1 评论 0原文

对于一个 url，该代码可以工作，但对于列表中的多个 url，该代码不起作用，会出现错误。我是r新手，请帮忙。

library(rvest)


for (url in data_list){

webpage = read_html(url)


extracted_urls = webpage %>%
rvest::html_nodes("a") %>%
rvest::html_attr("href")
extracted_urls = extracted_urls[grep("roster", extracted_urls)]
extracted_urls}

错误：

x 必须是长度为 1 的字符串

编辑

OP 评论中的链接。

data_list <- c(
  "ephsports.williams.edu", 
  "wilsonphoenix.com", 
  "wingatebulldogs.com", 
  "ycpspartans.com"
)

原文

For one url the code works, but for multiple urls in a list this does not work, gives an error. I'm new to r, please help.

library(rvest)


for (url in data_list){

webpage = read_html(url)


extracted_urls = webpage %>%
rvest::html_nodes("a") %>%
rvest::html_attr("href")
extracted_urls = extracted_urls[grep("roster", extracted_urls)]
extracted_urls}

Error:

x must be a string of length 1

Edit

Links in OP's comment.

data_list <- c(
  "ephsports.williams.edu", 
  "wilsonphoenix.com", 
  "wingatebulldogs.com", 
  "ycpspartans.com"
)

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

臻嫒无言 2025-01-21 23:36:33

在 for 循环中创建的变量每次迭代都会被覆盖。在这里，extracted_urls 被反复破坏。在循环外部创建接收器对象（尝试 r <- list()）允许将结果逐步添加到全局环境中的对象，这将在 for 循环内的本地环境外部保持可访问性。

回复收藏 0 原文

病毒体 2025-01-21 23:36:33

由于某些网址不起作用，我们可以使用 possible 函数跳过它们。

library(rvest)
library(tidyverse)

data_list <- c(
  'https://wilsonphoenix.com', 
 'https://wingatebulldogs.com',
'https://ycpspartans.com/sorry.ashx'
)
#the third link is broken 

# we create a function to get required info. 
roster = function(x){ 
webpage = read_html(x)
extracted_urls = webpage %>%
  rvest::html_nodes("a") %>%
  rvest::html_attr("href")
extracted_urls = extracted_urls[grep("roster", extracted_urls)]
extracted_urls}
}

现在我们循环包含 urls data_list 的向量并跳过有错误的向量。

df <- map(data_list, 
                  possibly(roster, otherwise = NA_character_))

As some of the urls are not working, we can skip them using possibly function.

library(rvest)
library(tidyverse)

data_list <- c(
  'https://wilsonphoenix.com', 
 'https://wingatebulldogs.com',
'https://ycpspartans.com/sorry.ashx'
)
#the third link is broken 

# we create a function to get required info. 
roster = function(x){ 
webpage = read_html(x)
extracted_urls = webpage %>%
  rvest::html_nodes("a") %>%
  rvest::html_attr("href")
extracted_urls = extracted_urls[grep("roster", extracted_urls)]
extracted_urls}
}

Now we loop over vector containing urls data_list and skipping the one with errors.

df <- map(data_list, 
                  possibly(roster, otherwise = NA_character_))

回复收藏 0 原文

~没有更多了~

关于作者

少跟Wǒ拽

暂无简介

文章

27 人气

关注发私信

櫻之舞

文章 0 评论 0

关注

弥枳

文章 0 评论 0

关注

m2429

文章 0 评论 0

关注

寻找一个思念的角度

文章 0 评论 0

关注

野却迷人

文章 0 评论 0

关注

我怀念的。

文章 0 评论 0

友情链接

文江博客

这个 URL 循环有什么错误？

编辑

Edit

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

这个 URL 循环有什么错误？

编辑

Edit

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

櫻之舞

弥枳

m2429

寻找一个思念的角度

野却迷人

我怀念的。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。