Как создать облако слов из корпуса в Python?

Из Создавая подмножество слов из корпуса в R, ответчик легко может легко преобразовать term-document matrix в облако слов.

Есть ли аналогичная функция из библиотек python, которая в текстовое облако принимает текстовый файл raw text или NLTK corpus или Gensim Mmcorpus?

Результат будет выглядеть примерно так:

Ответ 1

Вот сообщение в блоге, которое делает именно это: http://peekaboo-vision.blogspot.com/2012/11/a-wordcloud-in-python.html

Весь код здесь: https://github.com/amueller/word_cloud

Ответ 2

Если вам нужны эти облака слов для показа их на веб-сайте или веб-приложении, вы можете преобразовать ваши данные в формат json или csv и загрузить его в библиотеку визуализации JavaScript, такую как d3. Word Clouds на d3

Если нет, ответ Марцина - хороший способ сделать то, что вы описываете.

Ответ 3

Пример кода amueller в действии

В командной строке/терминале:

sudo pip install wordcloud

Затем запустите python script:

# Simple WordCloud
from os import path
from scipy.misc import imread
import matplotlib.pyplot as plt
import random

from wordcloud import WordCloud, STOPWORDS

text = 'all your base are belong to us all of your base base base'
wordcloud = WordCloud(font_path='/Library/Fonts/Verdana.ttf',
                      relative_scaling = 1.0,
                      stopwords = {'to', 'of'} # set or space-separated string
                      ).generate(text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()