결측치(Missing Value)의 정보와 시각화하기
데이터 있는 결측치(missing value)에 대한 정보를 파악하고 시각화하는 방법은 다음과 같다.
install.packages("tidyverse")
install.packages("naniar")
install.packages("mice")
install.packages("VIM")
install.packages("cowplot")
library(tidyverse)
library(naniar)
library(mice)
library(VIM)
library(cowplot)
# 작업공간 설정하기
setwd("d:/DataAnalysis")
# 데이터 읽어오기
house.price <- read.csv(file = "HousePrices.csv",
header = TRUE,
stringsAsFactors = TRUE)
# 각 변수에 있는 missing value의 개수
house.price %>% purrr::map_dbl(naniar::n_miss)
# 각 변수에 있는 missing value에 대한 정보
naniar::miss_var_summary(house.price)
# 각 행에 있는 missing value에 대한 정보
naniar::miss_case_summary(house.price)
# missing value 시각화01
mice::md.pattern(house.price[ , 1:5])
# missing value 시각화02
VIM::aggr(house.price,
col = c("gray", "red"),
numbers = TRUE,
sortVars = TRUE,
labels = names(house.price),
cex.axis = 0.7,
gap = 3,
ylab = c("Histogram of missing data", "Pattern"))
# missing value 시각화03
missing.variables <- naniar::gg_miss_var(house.price)
missing.cases <- naniar::gg_miss_case(house.price, show_pct = FALSE) + labs(y = "Number of Missing Value")
cowplot::plot_grid(missing.variables, missing.cases)
[참고] https://statkclee.github.io/data-science/ds-missing.html