R

결측치(Missing Value)의 정보와 시각화하기

이부일 2018. 12. 27. 22:20

데이터 있는 결측치(missing value)에 대한 정보를 파악하고 시각화하는 방법은 다음과 같다.


install.packages("tidyverse")
install.packages("naniar")
install.packages("mice")
install.packages("VIM")
install.packages("cowplot")
library(tidyverse)
library(naniar)
library(mice)
library(VIM)
library(cowplot)


# 작업공간 설정하기
setwd("d:/DataAnalysis")


# 데이터 읽어오기
house.price <- read.csv(file                = "HousePrices.csv", 

                             header            = TRUE, 

                             stringsAsFactors = TRUE)


# 각 변수에 있는 missing value의 개수
house.price %>% purrr::map_dbl(naniar::n_miss)



# 각 변수에 있는 missing value에 대한 정보
naniar::miss_var_summary(house.price)

이미지: 텍스트


# 각 행에 있는 missing value에 대한 정보
naniar::miss_case_summary(house.price)

이미지: 텍스트


# missing value 시각화01
mice::md.pattern(house.price[ , 1:5])


# missing value 시각화02
VIM::aggr(house.price, 
            col       = c("gray", "red"), 
            numbers = TRUE, 
            sortVars = TRUE, 
            labels   = names(house.price), 
            cex.axis = 0.7, 
            gap      = 3, 
            ylab      = c("Histogram of missing data", "Pattern"))


# missing value 시각화03

missing.variables <- naniar::gg_miss_var(house.price)
missing.cases   <- naniar::gg_miss_case(house.price, show_pct = FALSE) +                           labs(y = "Number of Missing Value")
cowplot::plot_grid(missing.variables, missing.cases)


[참고] https://statkclee.github.io/data-science/ds-missing.html