텍스트마이닝 : 워드클라우드 작성하기
from konlpy.tag import Kkma
from konlpy.tag import Hannanum
from konlpy.tag import Twitter
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import matplotlib.pyplot as plt
import numpy as np
import platform
%matplotlib inline
# 텍스트 파일 읽어오기
text = open("09. alice.txt").read()
# png 파일 읽어오기
alice_mask = np.array(Image.open("09. alice_mask.png"))
# Stop Words 등록하기
stopwords = set(STOPWORDS)
stopwords.add("said")
# 한글 폰트 지원하기
path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
font_name = font_manager.FontProperties(fname=path).get_name()
rc('font', family=font_name)
else:
print('Unknown system... sorry~~~~')
plt.rcParams['axes.unicode_minus'] = False
# 워드 클라우드 / 텍스트 분석
wc = WordCloud(background_color = "white", max_words = 2000, mask = alice_mask, stopwords = stopwords)
wc = wc.generate(text)
# 이미지 위에 워드클라우스 작성하기
plt.figure(figsize = (12, 12))
plt.imshow(wc, interpolation = "bilinear")
plt.axis("off")
plt.show()
[출처] 파이썬으로 데이터 주무르기, 민형기 지음, BJPUBLIC, p287~300