R/TextMining
-
DFM 객체 정돈하기R/TextMining 2019. 10. 30. 23:37
install.packages("tm") install.packages("topicmodels") install.packages("tidyverse") install.packages("tidytext") install.packages("quanteda") install.packages("scales") library(tm) library(topicmodels) library(tidyverse) library(tidytext) library(quanteda) library(scales) data("data_corpus_inaugural") data_corpus_inaugural inaug_dfm % dplyr::arrange(desc(tf_idf)) -> inaug_tf_idf inaug_tidy %>% ..
-
긍정 정서나 부정 정서에 가장 큰 기여를 한 단어들R/TextMining 2019. 10. 30. 00:05
# 패키지 설치하기와 로딩하기 install.packages("tm") install.packages("topicmodels") install.packages("tidyverse") install.packages("tidytext") library(tm) library(topicmodels) library(tidyverse) library(tidytext) # 데이터 불러오기 data("AssociatedPress") AssociatedPress # tidy data 만들기 ap_td % dplyr::inner_join(tidytext::get_sentiments("bing"), by = c(term = "word")) -> ap_sentiments # 정서에 기여하는 단어들 ap_sentiments %..
-
R and BERTR/TextMining 2019. 10. 29. 13:23
BERT from R A deep learning model - BERT from Google AI Research - has yielded state-of-the-art results in a wide variety of Natural Language Processing (NLP) tasks. In this tutorial, we will show how to load and train the BERT model from R, using Keras. AUTHOR AFFILIATION Turgut Abdullayev AccessBank Azerbaijan PUBLISHED Sept. 30, 2019 CITATION Abdullayev, 2019 Today, we’re happy to feature a g..
-
문재인 대통령 평양 연설문에 대한 Word Cloud 작성하기R/TextMining 2019. 10. 24. 21:52
# 패키지 설치하기와 로딩하기 # Java 최신 버전 설치하기 install.packages("tidyverse") install.packages("tidytext") install.packages("KoNLP") install.packages("reshape2") install.packages("wordcloud2") library(tidyverse) library(tidytext) library(KoNLP) library(reshape2) library(wordcloud2) # 작업공간 설정하기 setwd("e:/R/TextMining/") # KoNLP 패키지에서 제공하는 NIA 사전 사용하기 KoNLP::useNIADic() # Word Cloud 작성하기 readLines(con = "moon...
-
Jane Austen 소설 속 Term FrequencyR/TextMining 2019. 10. 21. 17:59
install.packages("tidytext") install.packages("tidyverse") install.packages("janeaustenr") library(tidytext) library(tidyverse) library(janeaustenr) # 단어의 빈도를 구함 janeaustenr::austen_books() %>% tidytext::unnest_tokens(output = word, input = text) %>% dplyr::count(book, word, sort = TRUE) %>% dplyr::ungroup() -> book_words # 소설별로 단어 빈도의 합계를 구함 book_words %>% dplyr::group_by(book) %>% dplyr::summa..
-
word cloud : 부정적인 단어와 긍정적인 단어 표현하기R/TextMining 2019. 10. 21. 10:06
부정적인 단어는 gray, 긍정적인 단어는 green으로 표현하기 tidy_books %>% dplyr::inner_join(tidytext::get_sentiments("bing")) %>% dplyr::count(word, sentiment, sort = TRUE) %>% reshape2::acast(word ~ sentiment, value.var = "n", fill = 0) %>% wordcloud::comparison.cloud(colors = c("grey20", "green"), max.words = 100) [ 출처] R로 배우는 텍스트마이닝, 줄리아 실기/데이비드 로빈슨 지음, 박진수 옮김, Jpub, p31
-
감성기술의 5대 난제R/TextMining 2018. 11. 27. 08:56
감성기술의 5대 난제 1. 부분 식별 다음과 같은 문장의 감성을 정확하게 판별하기 힘들다.나는 행복하다.세종시는 행정중심복합도시로 행복도시라고 불린다.시나리오는 훌륭하지만, 배우 연기가 별로. 2. 도메인 의존성 같은 단어라도 분야마다 다른 감성일 수 있다.이 영화는 졸리다.이 침대는 졸리다. 3. 반어 어조 등이 바뀌면 감성이 변하는 경우가 있다.잘한다.잘 ~ 한다. 4. 간접적인 표현 감성 표현을 직접 사용하지 않았지만 감성이 표현된 경우 정확한 판별이 쉽지 않다.이 영화는 별 다섯 개다. 5. 비교 처리 현재 기술로는 아래 문장의 의미 차이를 가려내기 힘들다. A는 B보다 낫다.B는 A보다 낫다. [출처] Dong-A Business Review November 2018 Issue 2, No.261..