텍스트마이닝
-
2020년도 015번째 읽은 책 : R을 이용한 텍스트 마이닝Books 2020. 3. 25. 13:12
제목 : R을 이용한 텍스트 마이닝 지음 : 백영민 출판사 : 한울아카데미 가격 : 29,500원 페이지 : p295 독서기간 : 2020년 03월 2일(목) ~ 2020년 03월 25일(수) 이 책을 두 번 읽었다. 2018년에 한 번, 2020년에 또 한 번. 2년 전에 이해되지 않았던 내용들이 2년 후에 많이 이해가 되었다. 거의 매일 텍스트마이닝에 두 시간의 시간을 투자해서 공부하고 있다. 읽고 또 읽고 무엇보다도 어려워도 포기하지 않고 엉덩이의 힘으로 한 글자도 대충 건너뛰지 않고 천천히 읽으면 이해에 도움이 됨을 조금씩 알아가고 있다. 한글로 된, R로 된 책은 두 권 밖에 없는 것 같다. 그 중에 하나의 책이다. 말투가 익숙하지 않은 사회학적 부분이 있다. 잘 쓰여진 책이다. 텍스트마이닝을 ..
-
계층적(위계적) 군집분석(Hierarchical Clustering Analysis)R/TextMining 2020. 3. 24. 13:43
창세기 14장(NIV 버전)의 내용을 숫자, 문장부호, 불용어를 제거하고, DTM(Document Term Matrix)를 만들었다. 여기서 행은 각 절이 되고, 열은 각 절에 있는 단어들이다. 유클리드 거리를 이용하여 계층적(또는 위계적) 군집분석(Hierarchical Clustering Analysis)을 할 결과이다. install.packages("KoNLP") install.packages("tidyverse") install.packages("tm") library(KoNLP) library(tidyverse) library(tm) genesis
-
2020년도 011번째 읽은 책 : 잡아라! 텍스트마이닝 with 파이썬Books 2020. 3. 5. 18:54
제목 : 잡아라! 텍스트마이닝 with 파이썬 지음 : 서대호 출판사 : BJ Public 가격 : 17,000원 페이지 : p203 독서기간 : 2019년 05월 13일(월) ~ 2020년 03월 05일(목) 2019년에 5월에 사놓았다. 조금 읽었다. 멈추었다. 코로나 바이러스로 3월의 모든 강의가 취소 또는 연기됨으로 시간이 생겼다. 집에서 삼시 세끼를 하면서 책을 본다. 텍스트마이닝에 대해 관심은 늘 있지만 제대로 공부하지 못했다. 시간이 주어졌다. 3월 동안, 본격적으로 공부를 해야겠다. 다음의 내용을 다룬다. 1. 텍스트마이닝에 대한 개념, 2. 파이썬 기초, 3. 텍스트 전처리, 4. 다양한 텍스트마이닝 기법(빈도분석, 군집분석, 토픽모델링, 감성분석, 연관어 분석) 5. 텍스트 크롤링 : ..
-
텍스트 군집분석Python 2020. 3. 2. 11:59
# 패키지 로딩하기 import pandas as pd from konlpy.tag import Hannanum from sklearn.feature_extraction.text import CountVectorizer from sklearn.cluster import KMeans from sklearn.decomposition import PCA import matplotlib.pyplot as plt # 한나눔 형태소 분석기 클래스 생성하기 hannanum = Hannanum() # 뉴스 데이터 읽어오기 news = pd.read_csv("d:/deeplearning/textmining/군집분석데이터.csv", engine = "python") # 한나눔 형태소 분석기를 이용한 명사 추출하기 news..