Подтвердить что ты не робот

Нужен модуль python для создания текстовых документов

Мне нужен хороший модуль python для создания текстовых документов на этапе предварительной обработки.

Я нашел этот

http://pypi.python.org/pypi/PyStemmer/1.0.1

но я не могу найти документацию по указанной ссылке.

Я знаю, где найти документацию или любой другой хороший алгоритм, пожалуйста, помогите.

4b9b3361

Ответ 1

Вы можете попробовать NLTK

>>> from nltk import PorterStemmer
>>> PorterStemmer().stem('complications')

Ответ 2

Модуль синтеза Python реализует различные алгоритмы генерации, такие как Porter, Porter2, Paice-Husk и Lovins. http://pypi.python.org/pypi/stemming/1.0

    >> from stemming.porter2 import stem
    >> stem("factionally")
    faction

Ответ 3

Все эти стволовые клетки, которые обсуждались здесь, являются алгоритмическими стволовыми, поэтому они всегда могут давать неожиданные результаты, такие как

In [3]: from nltk.stem.porter import *

In [4]: stemmer = PorterStemmer()

In [5]: stemmer.stem('identified')
Out[5]: u'identifi'

In [6]: stemmer.stem('nonsensical')
Out[6]: u'nonsens'

Чтобы правильно получить корневые слова, нужен словарь-основатель, такой как Hunspell Stemmer. Вот его реализация на python в следующей , Пример кода здесь

>>> import hunspell
>>> hobj = hunspell.HunSpell('/usr/share/myspell/en_US.dic', '/usr/share/myspell/en_US.aff')
>>> hobj.spell('spookie')
False
>>> hobj.suggest('spookie')
['spookier', 'spookiness', 'spooky', 'spook', 'spoonbill']
>>> hobj.spell('spooky')
True
>>> hobj.analyze('linked')
[' st:link fl:D']
>>> hobj.stem('linked')
['link']

Ответ 4

gensim package для моделирования темы поставляется с алгоритмом Porter Stemmer:

>>> from gensim import parsing
>>> gensim.parsing.stem_text("trying writing nonsense")
'try write nonsens'

PorterStemmer - единственная опция, используемая в gensim.

Замечание: я могу представить (без дальнейших ссылок), что большинство модулей, связанных с составлением текста, имеют свои собственные реализации для простых процедур предварительной обработки, таких как обработка Porter, удаление белого пространства и удаление стоп-слова.