-
2018년도 015번째 읽은 책 : R를 이용한 텍스트 마이닝Books 2018. 3. 13. 22:17
제 목 : R를 이용한 텍스트 마이닝
지 음 : 백영민
출판사 : 한울
가 격 : 29,500원
페이지 : p295
독서기간 : 2018년 3월 2일(금) ~ 2018년 3월 13일(화)R을 이용하여 <텍스트마이닝(Text Mining)> 관련된 한글 책은 이것이 유일해 보인다. R을 이용한 텍스트마이닝하면 주로 인터넷에 있는 글을 크롤링(crawling)하고, 명사를 추출하고, 일부 문제가 있는 단어들을 변경하거나 삭제하고, 빈도 구하기, 막대그래프/원그래프를 작성하고, 워드 클라우드(word cloud) 작성하는 것이 대부분이다.
하지만 이 책은 텍스트를 처리하기 위한
R의 기본 기능에서 제공하는 함수들
stringr 패키지에서 제공하는 함수들
tm과 KoNLP를 이용하여 텍스트를 처리하는 방법
문서 간의 상관분석
유사도 행렬을 이용한 위계적 군집분석
- LDA
- CDA
- SDA감성사전을 이용한 감성분석
supervised machine learning을 이용한 감성분석
등을 잘 설명하고 있다.
여전히 한글이라는 텍스트를 분석하기에는 감당해야 하는 많은 어려움이 있어 보인다.
텍스트마이닝에 대해서 숲을 볼 수 있는 책을 알게 되어 기쁘고, R을 이용하여 텍스트마이닝을 체계적으로 공부할 수 있도록 책을 저술한 저자에게 감사한다.
일독을 했지만,
내용을 완전히 이해하기 위해서 읽고 또 읽어야겠다.
또한 적은 양의 데이터라도 실제 데이터를 수집해서 R로 구현하는 작업도 병행해야겠다.기회가 온다면
R을 이용하여 텍스트마이닝에 대한 프로젝트를 진행해 보고 싶다. 준비하고 또 준비하자.'Books' 카테고리의 다른 글
2018년도 017번째 읽은 책 : 어떻게 읽을 것인가 (0) 2018.03.24 2018년도 016번째 읽은 책 : 데이터과학 입문자를 위한 R (0) 2018.03.16 2018년도 014번째 읽은 책 : 실베스터가 들려주는 행렬 이야기 (0) 2018.03.06 2018년도 013번째 읽은 책 : 라이프니츠가 들려주는 미분 4 이야기 (0) 2018.03.05 2018년도 012번째 읽은 책 : 라이프니츠가 들려주는 미분 3 이야기 (0) 2018.03.02