R/TextMining
-
AP 뉴스에 있는 긍정/부정 단어들 현황R/TextMining 2020. 4. 1. 10:53
AP 뉴스에 있는 긍정/부정 단어들 현황 install.packages("tm") install.packages("tidytext") install.packages("topicmodels") library(tm) library(tidytext) library(topicmodels) # topicmodels 패키지에서 제공하는 AP뉴스 데이터 : DTM 형식 data("AssociatedPress") # DTM을 tidy 데이터로 변경하기 # Bing 감성사전과 합치기 ad_sentiments % dplyr::inner_join(tidytext::get_sentiments("bing"), by = c(term = "word")) # AP 뉴스에서 등장하는 긍정/부정 단어들의 현황 ad_sentiments ..
-
Jane Austen의 6개 작품에 대해 Bing 용어집을 이용하여 감성분석R/TextMining 2020. 3. 27. 09:39
Jane Austen의 6개 작품에 대해 Bing 용어집을 이용하여 감성분석을 하면 다음과 같다. install.packages("tidyverse") install.packages("tidytext") install.packages("textdata") install.packages("janeaustenr") library(tidyverse) library(tidytext) library(textdata) library(janeaustenr) # tidy text data 만들기 tidy_books % dplyr::group_by(book) %>% dplyr::mutate(linenumber = row_number(), chapter = cumsum(stringr::str_detect(string = ..
-
계층적(위계적) 군집분석(Hierarchical Clustering Analysis)R/TextMining 2020. 3. 24. 13:43
창세기 14장(NIV 버전)의 내용을 숫자, 문장부호, 불용어를 제거하고, DTM(Document Term Matrix)를 만들었다. 여기서 행은 각 절이 되고, 열은 각 절에 있는 단어들이다. 유클리드 거리를 이용하여 계층적(또는 위계적) 군집분석(Hierarchical Clustering Analysis)을 할 결과이다. install.packages("KoNLP") install.packages("tidyverse") install.packages("tm") library(KoNLP) library(tidyverse) library(tm) genesis
-
문재인 대통령 취임사의 워드 클라우드 (2)R/TextMining 2019. 11. 8. 12:43
# 패키지 설치와 로딩하기 ---- install.packages("tidyverse") install.packages("tidytext") install.packages("KoNLP") install.packages("reshape2") library(tidyverse) library(tidytext) library(KoNLP) library(reshape2) # 작업공간 설정하기 setwd("d:/president/") # NIA 사전 등록하기 KoNLP::useNIADic() # 연설문 읽어오기 및 명사추출 작업 readr::read_lines(file = "19문재인.txt") %>% sapply(KoNLP::extractNoun, USE.NAMES = FALSE) %>% unlist() %>% ..
-
문재인 대통령 취임사의 워드 클라우드R/TextMining 2019. 11. 8. 12:27
# 패키지 설치하기와 로딩하기 install.packages("tidyverse") install.packages("tidytext") install.packages("KoNLP") install.packages("reshape2") library(tidyverse) library(tidytext) library(KoNLP) library(reshape2) # 작업공간 설정하기 setwd("d:/president/") # 연설문 읽어오기 및 명사 추출하기 readr::read_lines(file = "19문재인.txt") %>% KoNLP::SimplePos22() %>% reshape2::melt() %>% tibble::as_tibble() %>% dplyr::select(L1, value) %>% ..
-
term-topic probabilityR/TextMining 2019. 11. 4. 22:20
install.packages("topicmodels") install.packages("tidytext") install.packages("broom") install.packages("tidyverse") library(topicmodels) library(tidytext) library(broom) library(tidyverse) data("AssociatedPress") # 2개의 topic LDA 분석 ap_lda % dplyr::top_n(n = 10, wt = beta) %>% dplyr::ungroup() %>% dplyr::arrange(topic, desc(beta)) %>% dplyr::mutate(term = reorder(term, beta)) %>% ggplot2::ggplot..