Books

2018년도 015번째 읽은 책 : R를 이용한 텍스트 마이닝

이부일 2018. 3. 13. 22:17

자동 대체 텍스트를 사용할 수 없습니다.


제 목 : R를 이용한 텍스트 마이닝

지 음 : 백영민
출판사 : 한울
가 격 : 29,500원
페이지 : p295
독서기간 : 2018년 3월 2일(금) ~ 2018년 3월 13일(화)



R을 이용하여 <텍스트마이닝(Text Mining)> 관련된 한글 책은 이것이 유일해 보인다. R을 이용한 텍스트마이닝하면 주로 인터넷에 있는 글을 크롤링(crawling)하고, 명사를 추출하고, 일부 문제가 있는 단어들을 변경하거나 삭제하고, 빈도 구하기, 막대그래프/원그래프를 작성하고, 워드 클라우드(word cloud) 작성하는 것이 대부분이다.


하지만 이 책은 텍스트를 처리하기 위한 

  • R의 기본 기능에서 제공하는 함수들

  • stringr 패키지에서 제공하는 함수들

  • tm과 KoNLP를 이용하여 텍스트를 처리하는 방법

  • 문서 간의 상관분석

  • 유사도 행렬을 이용한 위계적 군집분석
    - LDA
    - CDA
    - SDA

  • 감성사전을 이용한 감성분석

  • supervised machine learning을 이용한 감성분석


등을 잘 설명하고 있다.


여전히 한글이라는 텍스트를 분석하기에는 감당해야 하는 많은 어려움이 있어 보인다.

텍스트마이닝에 대해서 숲을 볼 수 있는 책을 알게 되어 기쁘고, R을 이용하여 텍스트마이닝을 체계적으로 공부할 수 있도록 책을 저술한 저자에게 감사한다.


일독을 했지만,
내용을 완전히 이해하기 위해서 읽고 또 읽어야겠다.
또한 적은 양의 데이터라도 실제 데이터를 수집해서 R로 구현하는 작업도 병행해야겠다.


기회가 온다면
R을 이용하여 텍스트마이닝에 대한 프로젝트를 진행해 보고 싶다. 준비하고 또 준비하자.