ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 시각화가 필요한 이유 : Ansombe's Quarter
    Python 2018. 11. 15. 16:12
    import matplotlib.pyplot as plt

    import numpy as np
    import pandas as pd
    import seaborn as sns
    %matplotlib inline


    # 데이터 불러오기
    anscombe = sns.load_dataset("anscombe")


    # 데이터 분할하기
    d1 = anscombe.loc[anscombe.dataset == "I", ]
    d2 = anscombe.loc[anscombe.dataset == "II", ]
    d3 = anscombe.loc[anscombe.dataset == "III", ]
    d4 = anscombe.loc[anscombe.dataset == "IV", ]


    # 그래프의 기본 틀 만들기

    fig = plt.figure()


    # 그래프의 화면을 2행, 2열, 위치를 지정함

    axes1 = fig.add_subplot(2, 2, 1)
    axes2 = fig.add_subplot(2, 2, 2)
    axes3 = fig.add_subplot(2, 2, 3)
    axes4 = fig.add_subplot(2, 2, 4)


    # 산점도 그리기
    axes1.plot(d1.x, d1.y, "o")
    axes2.plot(d2.x, d2.y, "o")
    axes3.plot(d3.x, d3.y, "o")
    axes4.plot(d4.x, d4.y, "o")


    # 제목 달기
    axes1.set_title("Dataset 1")
    axes2.set_title("Dataset 2")
    axes3.set_title("Dataset 3")
    axes4.set_title("Dataset 4")


    # 전체 제목 달기

    fig.suptitle("Ansombe Data")


    # 그래픽 화면의 여백 조정하기
    fig.tight_layout()


    # 그래프 보기
    fig

    자동 대체 텍스트를 사용할 수 없습니다.


    [출처] 데이터 분석을 위한 판다스 입문, Chen, Daniel Y. 지음, 김영하 옮김, 이지스퍼블리싱, p81 ~ 87


    4개의 집단의 데이터는 평균, 표준편차, 상관계수, 회귀선이 같다는 특징이 있다. 그렇지만 데이터를 시각화하지 않으면 다른 결론을 내릴 수 있다. 데이터 시각화의 중요성을 알려주는 대표적인 그래프이다.

    'Python' 카테고리의 다른 글

    관계 그래프 그리기  (0) 2018.11.16
    이차원 밀집도 그리기  (0) 2018.11.16
    Missing Value 처리  (0) 2018.11.01
    집단별 기술통계량 구하기  (0) 2018.10.30
    중복 데이터 삭제하기  (0) 2018.10.30
Designed by Tistory.