전체 글
-
결측값(Missing Value) 처리하기R 2018. 11. 7. 10:10
데이터 과학결측데이터1 미국대선 여론조사 1 2제45대 미국 대통령을 선출하는 선거에서 많은 언론에서 예측한 바와 다르게 공화당 도널드 트럼프 후보가 민주당 힐러리 클린턴 후보를 누르고 당선되었다. 이를 두고 트럼프 후보 당선을 정확히 예측한 인공지능(AI) 사례를 들며 기존 예측기법에 대한 문제점 제기 및 새로운 시대의 도래를 언급하고 있다. 이에 앞서 지금과 동일한 상황이 미국에서 여러번 있어와서 새삼스러운 것은 아니다.1916년 대선: 우편 설문조사를 바탕으로 민주당 우드로 윌슨 후보 당선 예측한리터리리 다이제스트는 1936년 대통령 예측에서 실패1천만명 유권자를 대상으로 설문조사를 실시했으나 표본의 대표성에 문제가 있음주소 확보가 용이한 구독자, 자동차 등록부, 전화번호부 등 공화당 성향 유권자에..
-
Frequency Table : 빈도표R 2018. 11. 7. 00:04
일변량(Uni-Variate) 질적 자료 또는 범주형 자료에 대한 빈도표를 작성하는 방법에는 여러 가지가 있다. # 예제 데이터 : ggplot2::diamonds install.packages("ggplot2") library(ggplot2) # 1. 기본 기능 sort(table(diamonds$cut), decreasing = TRUE) # 빈도 round(sort(prop.table(table(diamonds$cut))*100, decreasing = TRUE), digits = 1) # 2. prettyR::freq() install.packages("prettyR") library(prettyR) prettyR::freq(diamonds$cut) # 3. janitor::tabyl() inst..
-
puR 2018. 11. 5. 11:28
반복적인 일을 할 때에는 최근에 만들어진 purrr 패키지를 이용하면 유용하다. ggplot2 패키지에서 제공하는 diamonds 데이터 중에서 factor인 것만 추출하거나 또는 factor를 제외한 나머지를 추출하는 방법은 다음과 같다. install.packages("tidyverse") library(tidyverse) # 데이터 중에서 위의 6개 행 보기 head(diamonds) # factor인 변수만 추출하기 diamonds %>% purrr::keep(is.factor) %>% head() # factor인 변수를 제거하기 diamonds %>% purrr::discard(is.factor) %>% head()
-
송태근 목사의 마가복음 강해 01 : 빈 들에 서 있는 사람말씀/마가복음 2018. 11. 4. 09:02
마가복음강해 제1회 : 빈 들에 서 있는 사람 토지의 서문 중에 “소멸되어지는 시간은 다가오는데 길이 보이지 않는다”라는 표현이 나온다. 이것은 인생을 살면 살수록 정답이 무엇인지 알기가 어렵다는 뜻으로 보인다. 책에서 서문은 그 책의 핵심 내용이자 전체 내용을 담고 있다. 마가복음 1장 1절도 마가복음의 서문이며, 어느 학자들은 창세기 1장 1절 “태초에 하나님이 천지를 창조하시니라”라는 말씀보다 마가복음 1장 1절 “하나님의 아들 예수 그리스도의 복음의 시작이라”라는 말씀이 더 깊은 내용을 담고 있다고 말한다. 마가복음의 저자는 마가이며, 마가는 예수님의 12제가 아니다. 그럼에도 불구하고 예수님의 행적을 자세하게 기록하고 있다. 마가복음의 본문을 나가기 전에 마가복음의 저자인 마가에 대해서 알아보며..
-
Missing Value 처리Python 2018. 11. 1. 23:22
import pandas as pd # 데이터 읽어오기 test = pd.read_excel("d:/test.xlsx") test # missing value 확인 test.isna() # age에 있는 missing value를 0으로 대체하기 test.age = test.age.fillna(0) test # age에 있는 missing value를 age의 평균으로 대체하기 test.age = test.age.fillna(test.age.mean()). test # 행 중에서 하나라도 missing value가 있으면 해당 행을 삭제하기 test.dropna() # 행의 모든 값이 missing value인 경우 해당 행을 삭제하기 test.dropna(how = "all)
-
집단별 기술통계량 구하기Python 2018. 10. 30. 22:14
import pandas as pdapart = pd.read_excel("d:/apart.xlsx", encoding = "EUC-KR") apart.head() # 시군구별 보증금에 대한 기술통계량 구하기apart.groupby(" 시군구").보증금.describe() # 시군구와 전월세구분에 따른 전용면적, 보증금, 월세에 대한 평균 구하기apart.groupby(["시군구", "전월세구분"])["전용면적", "보증금", "월세"].mean() # 소수점 조정하기 round(apart.groupby(["시군구", "전월세구분"])["전용면적", "보증금", "월세"].mean() , ndigits = 2)
-
중복 데이터 삭제하기Python 2018. 10. 30. 21:46
import pandas as pdapart = pd.read_excel("d:/apart.xlsx", encoding = "EUC-KR") # 행 전체가 중복된 행을 제거함apart.drop_duplicates() # 시군구 변수를 기준으로 중복된 행을 제거함 # 첫 번째 값을 유지함 apart.drop_duplicates(["시군구"], keep = "first") # 시군구 변수를 기준으로 중복된 행을 제거함 # 마지막 값을 유지함 apart.drop_duplicates(["시군구"], keep = "last")