Python

데이터 시각화가 필요한 이유 : Ansombe's Quarter

이부일 2018. 11. 15. 16:12
import matplotlib.pyplot as plt

import numpy as np
import pandas as pd
import seaborn as sns
%matplotlib inline


# 데이터 불러오기
anscombe = sns.load_dataset("anscombe")


# 데이터 분할하기
d1 = anscombe.loc[anscombe.dataset == "I", ]
d2 = anscombe.loc[anscombe.dataset == "II", ]
d3 = anscombe.loc[anscombe.dataset == "III", ]
d4 = anscombe.loc[anscombe.dataset == "IV", ]


# 그래프의 기본 틀 만들기

fig = plt.figure()


# 그래프의 화면을 2행, 2열, 위치를 지정함

axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)


# 산점도 그리기
axes1.plot(d1.x, d1.y, "o")
axes2.plot(d2.x, d2.y, "o")
axes3.plot(d3.x, d3.y, "o")
axes4.plot(d4.x, d4.y, "o")


# 제목 달기
axes1.set_title("Dataset 1")
axes2.set_title("Dataset 2")
axes3.set_title("Dataset 3")
axes4.set_title("Dataset 4")


# 전체 제목 달기

fig.suptitle("Ansombe Data")


# 그래픽 화면의 여백 조정하기
fig.tight_layout()


# 그래프 보기
fig

자동 대체 텍스트를 사용할 수 없습니다.


[출처] 데이터 분석을 위한 판다스 입문, Chen, Daniel Y. 지음, 김영하 옮김, 이지스퍼블리싱, p81 ~ 87


4개의 집단의 데이터는 평균, 표준편차, 상관계수, 회귀선이 같다는 특징이 있다. 그렇지만 데이터를 시각화하지 않으면 다른 결론을 내릴 수 있다. 데이터 시각화의 중요성을 알려주는 대표적인 그래프이다.