Pythonでワードクラウドを作成する方法を紹介します。
ワードクラウドはテキストデータを単語ごとに分割し、
単語ごとの出現頻度に応じた大きさで図示する手法です。
例として、以下がワードクラウドです。
data:image/s3,"s3://crabby-images/7b62a/7b62ac5c634653b8e1ab71a53db8623ed5f68b4a" alt="ワードクラウド"
本投稿ではPythonのwordcloudを使用してワードクラウドを作成する方法を紹介します。
検証環境はMacBook(M1)、Python:3.9.1です。
wordcloudのインストール
ワードクラウドを作成する準備としてpipでwordcloudをインストールします。
(本投稿では wordcloud 1.8.1をインストール)
pip3 install wordcloud
data:image/s3,"s3://crabby-images/255cb/255cbe953c072459b45144802dec5e7a8056180f" alt="pip install wordcloud"
CLIでのテスト実施
pipでのインストールが完了したらCLI上で簡単にテストを実施してみます。
wordcloud_cli –text it.txt –imagefile test.png
Terminalでコマンドを実行するとit.txt内の単語でワードクラウドが作成されました。
data:image/s3,"s3://crabby-images/fb3ba/fb3ba1380ce74f4ef039e23313fcbc3e668a8eaf" alt="wordcloud_cliでワードクラウド作成"
data:image/s3,"s3://crabby-images/1adc4/1adc49e45e6c67015262d41f839ca3afafd4f289" alt="ワードクラウド"
Pythonでドーナツ型のワードクラウドを作成
ここで作成するワードクラウドはドーナツ型に作りたいので以下の画像を用意します。
data:image/s3,"s3://crabby-images/bb71f/bb71f6fc96afc0e213d6c7523470cd56fb5fb648" alt="ワードクラウドの形 ドーナツ"
黒塗りになっている部分でワードクラウドが作成されます。
wordcloudのデフォルトとして無視するカラーが白なので
画像を用意する際は背景色に注意しましょう。
コード例
#インポート
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
import os
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
#テキストデータの読み込み
text = open(path.join(‘it.txt’)).read()
#画像データの読み込み
donuts_coloring = np.array(Image.open(path.join(“donuts.png”)))
#wordcloudの指定
wc = WordCloud(background_color=”white”, max_words=100, mask=donuts_coloring,
max_font_size=100, random_state=42)
wc.generate(text)
#wordcloudの描写
plt.imshow(wc,interpolation=”bilinear”)
plt.axis(“off”)
plt.show()
出力結果
data:image/s3,"s3://crabby-images/939be/939be46ecd94a4788ca6fb0899a45e583262c79e" alt="wordcloud
Pythonで作成"
ドーナツ型にワードクラウドを作成することができました。
以下にはサンプルコードがいくつも用意されているので色々なやり方を試してみてください。
コメント