R
-
Two way cross tableR 2018. 11. 29. 09:25
Two way cross table 두 개의 질적 자료(범주형 자료)에 대한 교차표(분할표)를 작성하는 방법 중, 다음과 같이 하면 좋아 보인다. install.packages("tidyverse") install.packages("janitor") library(tidyverse) library(janitor) ggplot2에서 제공하는 diamonds 데이터의 cut과 color라는 질적 자료에 대한 교차표를 작성하고, 교차표에 빈도와 백분율을 표현한다. diamonds %>% janitor::tabyl(cut, color) %>% # 변수 지정 janitor::adorn_percentages("all") %>% # 전체 백분율 janitor::adorn_pct_formatting(digits = 1..
-
감성기술의 5대 난제R/TextMining 2018. 11. 27. 08:56
감성기술의 5대 난제 1. 부분 식별 다음과 같은 문장의 감성을 정확하게 판별하기 힘들다.나는 행복하다.세종시는 행정중심복합도시로 행복도시라고 불린다.시나리오는 훌륭하지만, 배우 연기가 별로. 2. 도메인 의존성 같은 단어라도 분야마다 다른 감성일 수 있다.이 영화는 졸리다.이 침대는 졸리다. 3. 반어 어조 등이 바뀌면 감성이 변하는 경우가 있다.잘한다.잘 ~ 한다. 4. 간접적인 표현 감성 표현을 직접 사용하지 않았지만 감성이 표현된 경우 정확한 판별이 쉽지 않다.이 영화는 별 다섯 개다. 5. 비교 처리 현재 기술로는 아래 문장의 의미 차이를 가려내기 힘들다. A는 B보다 낫다.B는 A보다 낫다. [출처] Dong-A Business Review November 2018 Issue 2, No.261..
-
dplyr로 DB 데이터를 다룰 때 여러 테이블을 union 해보자R 2018. 11. 16. 18:22
세줄요약{dplyr}의 함수들은 tbl()과 DBI::dbConnect()를 사용해서 db table을 소스로 사용할 수 있다.여러 테이블로 분산되어 있는 것을 union() 하는 것은 자주, 하지만 번거로운 일이다.table 이름을 받아와서 map 함수와 엮으면 짧은 코드로 한번에 많은 테이블들을 union() 해서 사용할 수 있다.데이터를 다루는데 있어 기업 환경에서는 데이터베이스에 접근하는 것을 피할 수 없을 것입니다. R로 접근하여 다루는 것에 대해 자료가 많지 않아서, 제가 찾은 요령을 공유할 겸 글을 작성해보겠습니다. 이미 {tidyverse}에 길들여져 있다면, 좋아하실 만한 내용입니다.{DBI} 패키지{DBI} 패키지는 database interface 라는 뜻으로, perl의 DBI나 p..
-
R스튜디오 "최선의 데이터분석 수단은 코딩"R/RStudio 2018. 11. 16. 14:04
"우리는 오로지 '데이터과학자'에게 맞춘다. 데이터분석툴 시장에서 우리와 타사간 최대 철학적 차이점이다. 여러분은 코드를 쓰는 법을 알거나 그걸 배울 의지가 있어야 한다. 중요한 데이터분석을 수행할 때 이게 최선의 방법이라고 확신한다."데이터분석툴 전문업체 'R스튜디오(RStudio)'의 임원이 최첨단 데이터분석을 위해서는 R 프로그래밍을 해야 한다는 취지의 발언을 해 눈길을 끈다. 통계 프로그래밍 언어 'R' 기반 오픈소스 및 상용 분석툴을 만들고 있는 R스튜디오의 조 청(Joe Cheng) 최고기술책임자(CTO)가 발언 주인공이다. 그는 마이크로소프트(MS) 오피스 프로그램 '엑셀'이 주류인 데이터분석툴 시장상황과 경쟁하고 있다고 표현하기도 했다.R스튜디오는 데이터과학자가 오픈소스 통계언어 R을 ..
-
수학적 주석 넣기(Mathematical Annotation in R)R 2018. 11. 7. 12:58
Mathematical Annotation in RR Core Team (R-core@R-project.org ) The R Project for Statistical Computing.Lijia Yu (yu@lijiayu.net / GitHub / Twitter) A master candidate majoring in Bioinformatics at Beijing Institute of Genomics.Karl Broman (kbroman@biostat.wisc.edu / GitHub / Twitter) Department of Biostatistics and Medical Informatics, University of Wisconsin-Madison; research in statistical ge..
-
결측값(Missing Value) 처리하기R 2018. 11. 7. 10:10
데이터 과학결측데이터1 미국대선 여론조사 1 2제45대 미국 대통령을 선출하는 선거에서 많은 언론에서 예측한 바와 다르게 공화당 도널드 트럼프 후보가 민주당 힐러리 클린턴 후보를 누르고 당선되었다. 이를 두고 트럼프 후보 당선을 정확히 예측한 인공지능(AI) 사례를 들며 기존 예측기법에 대한 문제점 제기 및 새로운 시대의 도래를 언급하고 있다. 이에 앞서 지금과 동일한 상황이 미국에서 여러번 있어와서 새삼스러운 것은 아니다.1916년 대선: 우편 설문조사를 바탕으로 민주당 우드로 윌슨 후보 당선 예측한리터리리 다이제스트는 1936년 대통령 예측에서 실패1천만명 유권자를 대상으로 설문조사를 실시했으나 표본의 대표성에 문제가 있음주소 확보가 용이한 구독자, 자동차 등록부, 전화번호부 등 공화당 성향 유권자에..
-
Frequency Table : 빈도표R 2018. 11. 7. 00:04
일변량(Uni-Variate) 질적 자료 또는 범주형 자료에 대한 빈도표를 작성하는 방법에는 여러 가지가 있다. # 예제 데이터 : ggplot2::diamonds install.packages("ggplot2") library(ggplot2) # 1. 기본 기능 sort(table(diamonds$cut), decreasing = TRUE) # 빈도 round(sort(prop.table(table(diamonds$cut))*100, decreasing = TRUE), digits = 1) # 2. prettyR::freq() install.packages("prettyR") library(prettyR) prettyR::freq(diamonds$cut) # 3. janitor::tabyl() inst..