R
-
AP 뉴스에 있는 긍정/부정 단어들 현황R/TextMining 2020. 4. 1. 10:53
AP 뉴스에 있는 긍정/부정 단어들 현황 install.packages("tm") install.packages("tidytext") install.packages("topicmodels") library(tm) library(tidytext) library(topicmodels) # topicmodels 패키지에서 제공하는 AP뉴스 데이터 : DTM 형식 data("AssociatedPress") # DTM을 tidy 데이터로 변경하기 # Bing 감성사전과 합치기 ad_sentiments % dplyr::inner_join(tidytext::get_sentiments("bing"), by = c(term = "word")) # AP 뉴스에서 등장하는 긍정/부정 단어들의 현황 ad_sentiments ..
-
Jane Austen의 6개 작품에 대해 Bing 용어집을 이용하여 감성분석R/TextMining 2020. 3. 27. 09:39
Jane Austen의 6개 작품에 대해 Bing 용어집을 이용하여 감성분석을 하면 다음과 같다. install.packages("tidyverse") install.packages("tidytext") install.packages("textdata") install.packages("janeaustenr") library(tidyverse) library(tidytext) library(textdata) library(janeaustenr) # tidy text data 만들기 tidy_books % dplyr::group_by(book) %>% dplyr::mutate(linenumber = row_number(), chapter = cumsum(stringr::str_detect(string = ..
-
계층적(위계적) 군집분석(Hierarchical Clustering Analysis)R/TextMining 2020. 3. 24. 13:43
창세기 14장(NIV 버전)의 내용을 숫자, 문장부호, 불용어를 제거하고, DTM(Document Term Matrix)를 만들었다. 여기서 행은 각 절이 되고, 열은 각 절에 있는 단어들이다. 유클리드 거리를 이용하여 계층적(또는 위계적) 군집분석(Hierarchical Clustering Analysis)을 할 결과이다. install.packages("KoNLP") install.packages("tidyverse") install.packages("tm") library(KoNLP) library(tidyverse) library(tm) genesis
-
KoNLP 설치할 때 오류 해결R 2020. 3. 23. 12:05
안녕하세요, 현재 코드 내부적인 이슈로 KoNLP 패키지가 cran에서 내려져 있습니다. github 버전으로 설치해야 해서 해당 내용을 공유합니다. (최초 아카이브 버전을 공유했었는데, 설치가 제대로 진행되지 않는 이슈가 있어서 수정합니다.) 아래 코드에서 의존성 패키지들이 설치 되지 않고 에러가 발생할 수도 있습니다만, 아래와 같이 에러 메세지에서 출력되는 의존성 패키지들을 먼저 설치후에 실행하시면 됩니다. rJava를 설치하는 방법과 함께 공유합니다. 문제가 있다면 알려주세요 감사합니다. # windows 사용자라면! # rtools 설치# https://cran.r-project.org/bin/windows/Rtools/index.html# Rtools35.exe (recommended) 다운로드..
-
ridgeline plotR 2020. 2. 23. 17:51
# ridgeline 그래프는 시간의 흐름에 따른 분포의 추세를 보여줄 때 유용한 그래프이다. install.packages("tidyverse") install.packages("gapminder") install.packages("ggridges") library(tidyverse) library(gapminder) library(ggridges) # 연도별 기대수명의 현황 gapminder %>% ggplot2::ggplot(aes(x = lifeExp, y = as.factor(year), fill = as.factor(year))) + ggridges::geom_density_ridges(alpha = 0.5) + ggplot2::theme_classic() + ggplot2::labs(titl..
-
sina plotR 2020. 2. 23. 17:31
# 양적 자료의 각 점들의 위치와 분포의 상태를 동시에 보여주는 그래프 install.packages("tidyverse") install.packages("ggforce") library(tidyverse) library(ggforce) # 집단별 sina 그래프 # 집단 : cut # y축 : price diamonds %>% ggplot2::ggplot(mapping = aes(x = cut, y = price, color = cut)) + ggforce::geom_sina() + ggplot2::theme_classic()