报告 data.frame 中缺失值的优雅方法

这是我编写的一小段代码,用于报告数据框中缺少值的变量。我正在尝试想出一种更优雅的方法来做到这一点,一种可能返回 data.frame 的方法,但我陷入了困境:

for (Var in names(airquality)) {
    missing <- sum(is.na(airquality[,Var]))
    if (missing > 0) {

编辑:我正在处理包含数十个到数百个变量的 data.frames,所以它是关键我们只报告缺失值的变量。

只需使用 sapply

> sapply(airquality, function(x) sum(is.na(x)))
  Ozone Solar.R    Wind    Temp   Month     Day 
     37       7       0       0       0       0

您还可以在 is.na() 创建的矩阵上使用 applycolSums

> apply(is.na(airquality),2,sum)
  Ozone Solar.R    Wind    Temp   Month     Day 
     37       7       0       0       0       0
> colSums(is.na(airquality))
  Ozone Solar.R    Wind    Temp   Month     Day 
     37       7       0       0       0       0 

我最喜欢的(不太宽的)数据是来自优秀的 naniar 包的方法。您不仅可以获得频率,还可以获得缺失模式:


riskfactors %>%
  as_shadow_upset() %>%



       aes(x = Ozone,
           y = Solar.R)) +



gg_miss_fct(x = riskfactors, fct = marital)


这些示例来自包 vignette 列出了其他有趣的可视化。

我们可以将 map_df 与 purrr 一起使用。


# map_df with purrr
map_df(airquality, function(x) sum(is.na(x)))
# A tibble: 1 × 6
# Ozone Solar.R  Wind  Temp Month   Day
# <int>   <int> <int> <int> <int> <int>
# 1    37       7     0     0     0     0

VIM 软件包还为 data.frame




另一个图形替代方案 - 来自优秀 DataExplorer 包的 plot_missing 函数:


Docs 还指出您可以保存这会导致使用 missing_data <-plot_missing(data) 进行额外分析。

更简洁-: sum(is.na(x[1]))

  1. x[1] 看第一列

  2. is.na() true 如果它是 NA

  3. sum() TRUE1FALSE0

另一个可以帮助您查看丢失数据的函数是 funModeling 库


iris.2 中的 df_status ,它是添加了一些 NA 的 iris 数据集。您可以将其替换为您的数据集。


这将为您提供每列中 NA 的数量和百分比。

对于另一种图形解决方案,visdat package 提供 vis_miss.



Amelia 输出非常相似,略有不同,即在开箱即用的缺失情况下给出 %s。

我认为 Amelia 库在处理丢失数据方面做得很好,还包括一个用于可视化丢失行的地图。




row.has.na <- apply(training, 1, function(x){any(is.na(x))})

另一种图形和交互式方式是使用 heatmaply 库中的 is.na10 函数:


heatmaply(is.na10(airquality), grid_gap = 1, 
          showticklabels = c(T,F),
            k_col =3, k_row = 3,
            margins = c(55, 30), 
            colors = c("grey80", "grey20"))



获取计数的 dplyr 解决方案可能是:

summarise_all(df, ~sum(is.na(.)))


summarise_all(df, ~(sum(is_missing(.) / nrow(df))))

也许还值得注意的是,丢失的数据可能会很丑陋、不一致,并且并不总是编码为 NA,具体取决于关于来源或导入时的处理方式。可以根据您的数据和您想要考虑丢失的内容来调整以下函数:

is_missing <- function(x){
  missing_strs <- c('', 'null', 'na', 'nan', 'inf', '-inf', '-9', 'unknown', 'missing')
  ifelse((is.na(x) | is.nan(x) | is.infinite(x)), TRUE,
         ifelse(trimws(tolower(x)) %in% missing_strs, TRUE, FALSE))

# sample ugly data
df <- data.frame(a = c(NA, '1', '  ', 'missing'),
                 b = c(0, 2, NaN, 4),
                 c = c('NA', 'b', '-9', 'null'),
                 d = 1:4,
                 e = c(1, Inf, -Inf, 0))

# counts:
> summarise_all(df, ~sum(is_missing(.)))
  a b c d e
1 3 1 3 0 2

# percentage:
> summarise_all(df, ~(sum(is_missing(.) / nrow(df))))
     a    b    c d   e
1 0.75 0.25 0.75 0 0.5

东走西顾 2024-12-25 18:37:01



If you want to do it for particular column, then you can also use this

ExPanDaR's package function prepare_missing_values_graph can be used to explore panel data:

enter image description here

# Counts 
df %>% is.na() %>% colSums()

# % of missing rounded to 2 decimals 
df %>% summarise_all(.funs = ~round(100*sum(is.na(.))/length(.),2)) 

summary(airquality) 默认显示 NA,与矢量的 table() 不同,矢量需要 useNA = "ifany"。 (错误:不要在数据帧上尝试 table() ,否则可能会出现内存泄漏。)

我最喜欢的总结数据帧值的新方法是使用 < a href="https://docs.ropensci.org/skimr/index.html" rel="nofollow noreferrer">skimr:

> skim(airquality)
── Data Summary ────────────────────────
Name                       airquality
Number of rows             153       
Number of columns          6         
Column type frequency:               
  numeric                  6         
Group variables            None      

── Variable type: numeric ────────────────────────────────────────────────────────────────────
  skim_variable n_missing complete_rate   mean    sd   p0   p25   p50   p75  p100 hist 
1 Ozone                37         0.758  42.1  33.0   1    18    31.5  63.2 168   ▇▃▂▁▁
2 Solar.R               7         0.954 186.   90.1   7   116.  205   259.  334   ▅▃▅▇▅
3 Wind                  0         1       9.96  3.52  1.7   7.4   9.7  11.5  20.7 ▂▇▇▃▁
4 Temp                  0         1      77.9   9.47 56    72    79    85    97   ▂▃▇▇▃
5 Month                 0         1       6.99  1.42  5     6     7     8     9   ▇▇▇▇▇
6 Day                   0         1      15.8   8.86  1     8    16    23    31   ▇▇▇▇▆

除了打印的摘要之外,您还可以获取从返回的数据帧形式的摘要统计信息skim()。您还可以自定义使用 sfl() 报告的统计信息。

