전체 글
-
Frequency Table : 빈도표R 2018. 11. 7. 00:04
일변량(Uni-Variate) 질적 자료 또는 범주형 자료에 대한 빈도표를 작성하는 방법에는 여러 가지가 있다. # 예제 데이터 : ggplot2::diamonds install.packages("ggplot2") library(ggplot2) # 1. 기본 기능 sort(table(diamonds$cut), decreasing = TRUE) # 빈도 round(sort(prop.table(table(diamonds$cut))*100, decreasing = TRUE), digits = 1) # 2. prettyR::freq() install.packages("prettyR") library(prettyR) prettyR::freq(diamonds$cut) # 3. janitor::tabyl() inst..
-
puR 2018. 11. 5. 11:28
반복적인 일을 할 때에는 최근에 만들어진 purrr 패키지를 이용하면 유용하다. ggplot2 패키지에서 제공하는 diamonds 데이터 중에서 factor인 것만 추출하거나 또는 factor를 제외한 나머지를 추출하는 방법은 다음과 같다. install.packages("tidyverse") library(tidyverse) # 데이터 중에서 위의 6개 행 보기 head(diamonds) # factor인 변수만 추출하기 diamonds %>% purrr::keep(is.factor) %>% head() # factor인 변수를 제거하기 diamonds %>% purrr::discard(is.factor) %>% head()
-
송태근 목사의 마가복음 강해 01 : 빈 들에 서 있는 사람말씀/마가복음 2018. 11. 4. 09:02
마가복음강해 제1회 : 빈 들에 서 있는 사람 토지의 서문 중에 “소멸되어지는 시간은 다가오는데 길이 보이지 않는다”라는 표현이 나온다. 이것은 인생을 살면 살수록 정답이 무엇인지 알기가 어렵다는 뜻으로 보인다. 책에서 서문은 그 책의 핵심 내용이자 전체 내용을 담고 있다. 마가복음 1장 1절도 마가복음의 서문이며, 어느 학자들은 창세기 1장 1절 “태초에 하나님이 천지를 창조하시니라”라는 말씀보다 마가복음 1장 1절 “하나님의 아들 예수 그리스도의 복음의 시작이라”라는 말씀이 더 깊은 내용을 담고 있다고 말한다. 마가복음의 저자는 마가이며, 마가는 예수님의 12제가 아니다. 그럼에도 불구하고 예수님의 행적을 자세하게 기록하고 있다. 마가복음의 본문을 나가기 전에 마가복음의 저자인 마가에 대해서 알아보며..
-
Missing Value 처리Python 2018. 11. 1. 23:22
import pandas as pd # 데이터 읽어오기 test = pd.read_excel("d:/test.xlsx") test # missing value 확인 test.isna() # age에 있는 missing value를 0으로 대체하기 test.age = test.age.fillna(0) test # age에 있는 missing value를 age의 평균으로 대체하기 test.age = test.age.fillna(test.age.mean()). test # 행 중에서 하나라도 missing value가 있으면 해당 행을 삭제하기 test.dropna() # 행의 모든 값이 missing value인 경우 해당 행을 삭제하기 test.dropna(how = "all)
-
집단별 기술통계량 구하기Python 2018. 10. 30. 22:14
import pandas as pdapart = pd.read_excel("d:/apart.xlsx", encoding = "EUC-KR") apart.head() # 시군구별 보증금에 대한 기술통계량 구하기apart.groupby(" 시군구").보증금.describe() # 시군구와 전월세구분에 따른 전용면적, 보증금, 월세에 대한 평균 구하기apart.groupby(["시군구", "전월세구분"])["전용면적", "보증금", "월세"].mean() # 소수점 조정하기 round(apart.groupby(["시군구", "전월세구분"])["전용면적", "보증금", "월세"].mean() , ndigits = 2)
-
중복 데이터 삭제하기Python 2018. 10. 30. 21:46
import pandas as pdapart = pd.read_excel("d:/apart.xlsx", encoding = "EUC-KR") # 행 전체가 중복된 행을 제거함apart.drop_duplicates() # 시군구 변수를 기준으로 중복된 행을 제거함 # 첫 번째 값을 유지함 apart.drop_duplicates(["시군구"], keep = "first") # 시군구 변수를 기준으로 중복된 행을 제거함 # 마지막 값을 유지함 apart.drop_duplicates(["시군구"], keep = "last")
-
데이터 프레임(Data.Frame)를 excel 파일로 저장하기Python 2018. 10. 28. 22:04
# 라이브러리 로딩하기import pandas as pd # 엑셀 데이터 불러오기 apart = pd.read_excel(io = "d:/apart.xls", sheet_name = 0, encoding = "EUC-KR") # Data.Frame를 excel 파일로 저장하기 apart.to_excel(excel_writer = "d:/apart_csv.csv", sheet_name = "data", index = False na_rep = "NA", encoding = "EUC-KR") # excel_writer : 저장될 디렉토리와 파일명# sheet_name : 시트의 이름 # index : 행의 이름을 저장할 지의 여부 # na_rep : missing value를 어떻게 표현할 것인가 # enc..