Python
-
word2vec 기반 연관어 분석Python 2020. 3. 4. 12:46
# 패키지 로딩하기 import pandas as pd import numpy as np import glob from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer from nltk.tokenize import RegexpTokenizer from gensim.models.word2vec import Word2Vec # 데이터 읽어오기/벡터로 만들기 pos_review = glob.glob("d:/deeplearning/textmining/pos/*.txt")[0:100] pos_lines = [] for i in pos_review: try: f = open(i, "r") temp = f.readlines()[0] po..
-
통계적 기반의 연관어 분석Python 2020. 3. 4. 12:28
# 패키지 로딩하기 import pandas as pd import numpy as np import glob from scipy import sparse from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity from afinn import Afinn from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer from nltk.tokenize import RegexpTokenizer # 100개의 데이터 읽어오기 pos_review = glob.glob("d:/deeplearn..
-
사전 기반의 감성분석(Sentiment Analysis)Python 2020. 3. 3. 14:37
# 패키지 설치하기 !pip install modin !pip install afinn # 패키지 로딩하기 import modin.pandas as pd import numpy as np import glob import matplotlib.pyplot as plt from afinn import Afinn from nltk.stem.porter import PorterStemmer from nltk.corpus import stopwords from nltk.tokenize import RegexpTokenizer # 데이터 읽어오기 pos_review = glob.glob("d:/deeplearning/textmining/pos/*.txt")[20] pos_file = open(pos_review, ..
-
LDA(Latent Dirichlet Allocation)Python 2020. 3. 2. 18:05
# gensim 패키지 설치하기 !pip install gensim # 패키지 로딩하기 from nltk.corpus import stopwords from nltk.stem.porter import PorterStemmer from nltk.tokenize import RegexpTokenizer from gensim import corpora, models from gensim.models import CoherenceModel import gensim import matplotlib.pyplot as plt # 텍스트 전처리를 위한 클래스 생성하기 tokenizer = RegexpTokenizer("[\w]+") # 불용어 stop_words = stopwords.words("english") # ..
-
텍스트 구조적 군집분석Python 2020. 3. 2. 15:07
# 패키지 로딩하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import scipy.cluster.hierarchy as shc from konlpy.tag import Hannanum from sklearn.feature_extraction.text import CountVectorizer from sklearn.cluster import AgglomerativeClustering # 한나눔 형태소 분석기 클래스 만들기 hannanum = Hannanum() # 데이터 읽어오기 news = pd.read_csv("d:/deeplearning/textmining/군집분석데이터.csv", engine = "python")..
-
텍스트 군집분석Python 2020. 3. 2. 11:59
# 패키지 로딩하기 import pandas as pd from konlpy.tag import Hannanum from sklearn.feature_extraction.text import CountVectorizer from sklearn.cluster import KMeans from sklearn.decomposition import PCA import matplotlib.pyplot as plt # 한나눔 형태소 분석기 클래스 생성하기 hannanum = Hannanum() # 뉴스 데이터 읽어오기 news = pd.read_csv("d:/deeplearning/textmining/군집분석데이터.csv", engine = "python") # 한나눔 형태소 분석기를 이용한 명사 추출하기 news..
-
word cloudPython 2020. 3. 2. 10:25
python 코드는 jupyter notebook에서 작성하였습니다. # wordcloud 패키지 설치하기 !pip install wordcloud # 패키지 로딩하기 import matplotlib.pyplot as plt %matplotlib inline from wordcloud import WordCloud # 텍스트 데이터 읽어오기 text = open("d:/deeplearning/textmining/constitution.txt").read() # 단어의 빈도를 자동으로 구해줌 wordcloud = WordCloud().generate(text) # 워드 클라우드 작성하기 plt.figure(figsize = (12, 12)) plt.imshow(wordcloud, interpolation ..