Text Mining
-
2020년도 015번째 읽은 책 : R을 이용한 텍스트 마이닝Books 2020. 3. 25. 13:12
제목 : R을 이용한 텍스트 마이닝 지음 : 백영민 출판사 : 한울아카데미 가격 : 29,500원 페이지 : p295 독서기간 : 2020년 03월 2일(목) ~ 2020년 03월 25일(수) 이 책을 두 번 읽었다. 2018년에 한 번, 2020년에 또 한 번. 2년 전에 이해되지 않았던 내용들이 2년 후에 많이 이해가 되었다. 거의 매일 텍스트마이닝에 두 시간의 시간을 투자해서 공부하고 있다. 읽고 또 읽고 무엇보다도 어려워도 포기하지 않고 엉덩이의 힘으로 한 글자도 대충 건너뛰지 않고 천천히 읽으면 이해에 도움이 됨을 조금씩 알아가고 있다. 한글로 된, R로 된 책은 두 권 밖에 없는 것 같다. 그 중에 하나의 책이다. 말투가 익숙하지 않은 사회학적 부분이 있다. 잘 쓰여진 책이다. 텍스트마이닝을 ..
-
계층적(위계적) 군집분석(Hierarchical Clustering Analysis)R/TextMining 2020. 3. 24. 13:43
창세기 14장(NIV 버전)의 내용을 숫자, 문장부호, 불용어를 제거하고, DTM(Document Term Matrix)를 만들었다. 여기서 행은 각 절이 되고, 열은 각 절에 있는 단어들이다. 유클리드 거리를 이용하여 계층적(또는 위계적) 군집분석(Hierarchical Clustering Analysis)을 할 결과이다. install.packages("KoNLP") install.packages("tidyverse") install.packages("tm") library(KoNLP) library(tidyverse) library(tm) genesis