Как загрузить данные NLTK?

Обновленный ответ: NLTK работает на 2,7 скважины. У меня было 3.2. Я удалил 3.2 и установил 2.7. Теперь он работает!!

Я установил NLTK и попытался загрузить данные NLTK. То, что я сделал, это следить за тем, как это происходит на этом сайте: http://www.nltk.org/data.html

Я загрузил NLTK, установил его, а затем попытался запустить следующий код:

>>> import nltk
>>> nltk.download()

Он дал мне сообщение об ошибке, как показано ниже:

Traceback (most recent call last):
  File "<pyshell#6>", line 1, in <module>
    nltk.download()
AttributeError: 'module' object has no attribute 'download'
 Directory of C:\Python32\Lib\site-packages

Пробовал как nltk.download(), так и nltk.downloader(), оба дали мне сообщения об ошибках.

Затем я использовал help(nltk), чтобы вытащить пакет, он показывает следующую информацию:

NAME
    nltk

PACKAGE CONTENTS
    align
    app (package)
    book
    ccg (package)
    chat (package)
    chunk (package)
    classify (package)
    cluster (package)
    collocations
    corpus (package)
    data
    decorators
    downloader
    draw (package)
    examples (package)
    featstruct
    grammar
    help
    inference (package)
    internals
    lazyimport
    metrics (package)
    misc (package)
    model (package)
    parse (package)
    probability
    sem (package)
    sourcedstring
    stem (package)
    tag (package)
    test (package)
    text
    tokenize (package)
    toolbox
    tree
    treetransforms
    util
    yamltags

FILE
    c:\python32\lib\site-packages\nltk

Я вижу Downloader там, не уверен, почему он не работает. Python 3.2.2, система Windows vista.

Ответ 1

TL; DR

Чтобы загрузить определенный набор данных/модели, используйте nltk.download(), например, если вы хотите загрузить punkt предложения punkt, используйте:

$ python3
>>> import nltk
>>> nltk.download('punkt')

Если вы не уверены, какие данные/модель вам нужны, вы можете начать с базового списка моделей данных +:

>>> import nltk
>>> nltk.download('popular')

Будет загружен список "популярных" ресурсов, в том числе:

<collection id="popular" name="Popular packages">
      <item ref="cmudict" />
      <item ref="gazetteers" />
      <item ref="genesis" />
      <item ref="gutenberg" />
      <item ref="inaugural" />
      <item ref="movie_reviews" />
      <item ref="names" />
      <item ref="shakespeare" />
      <item ref="stopwords" />
      <item ref="treebank" />
      <item ref="twitter_samples" />
      <item ref="omw" />
      <item ref="wordnet" />
      <item ref="wordnet_ic" />
      <item ref="words" />
      <item ref="maxent_ne_chunker" />
      <item ref="punkt" />
      <item ref="snowball_data" />
      <item ref="averaged_perceptron_tagger" />
    </collection>

РЕДАКТИРОВАНИЕ

В случае, если кто-то избегает ошибок при загрузке больших наборов данных из nltk, с fooobar.com/questions/228305/...

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it already installed.
>>> dler.download('popular')

обновленный

Начиная с версии 3.2.5, NLTK имеет более информативное сообщение об ошибке, когда ресурс nltk_data не найден, например:

>>> from nltk import word_tokenize
>>> word_tokenize('x')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
    sentences = [text] if preserve_line else sent_tokenize(text, language)
  File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
    tokenizer = load('tokenizers/punkt/{0}.pickle'.format(language))
  File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
    opened_resource = _open(resource_url)
  File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
    return find(path_, path + ['']).open()
  File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')

  Searched in:
    - '/Users/alvas/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************

связанные с

Чтобы найти каталог nltk_data (автоматически), см. fooobar.com/questions/107598/...
Чтобы загрузить nltk_data по другому пути, см. fooobar.com/questions/15106789/...
Чтобы nltk_data путь nltk_data (т. nltk_data Установить другой путь для NLTK, чтобы найти nltk_data), см. fooobar.com/questions/107595/...

Ответ 2

Не называйте свой файл nltk.py Я использовал тот же код и назову его nltk, и получил ту же ошибку, что и у вас, я изменил имя файла, и все прошло хорошо.

Ответ 3

Пытаться

nltk.download('all')

это загрузит все данные и не нужно скачивать по отдельности.

Ответ 4

Установите Pip: запустите в терминале: sudo easy_install pip

Установите Numpy (необязательно): запустите: sudo pip install -U numpy

Установите NLTK: запустите: sudo pip install -U nltk

Тестовая установка: запустить: python

затем наберите: import nltk

Скачать корпус

запустить: python -m nltk.downloader all

Ответ 5

Вы не можете иметь сохраненный файл Python с именем nltk.py потому что интерпретатор читает из этого, а не из фактического файла.

Измените имя вашего файла, из которого читается оболочка python, и попробуйте то, что вы делали изначально:

import nltk а затем nltk.download()

Ответ 6

Если вы используете действительно старую версию nltk, то модуль загрузки не доступен (ссылка)

Попробуй это:

import nltk
print(nltk.__version__)

Что касается ссылки, все, что после 0.9.5 должно быть хорошо

Ответ 7

Это сработало для меня:

nltk.set_proxy('http://user:[email protected]:8080')
nltk.download()

Ответ 8

Пожалуйста, попробуй

import nltk

nltk.download()

После запуска вы получите что-то вроде этого

NLTK Downloader
---------------------------------------------------------------------------
   d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------

Затем Press d

Делай как следует:

Downloader> d all

По завершении вы получите следующее сообщение, а затем - "Запрос", затем Press q

Ответ 9

У меня была аналогичная проблема. Вероятно, проверьте, используете ли вы прокси.

Если да, настройте прокси-сервер перед загрузкой:

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))

Ответ 10

Это очень просто....

Откройте pyScripter или любой редактор
Создайте файл Python, например: install.py
напишите ниже код в нем.

import nltk
nltk.download()

Появится всплывающее окно и нажмите кнопку загрузки.

Ответ 11

вы должны добавить python к вашему PATH во время установки python... после установки.. open cmd prompt type command- pip install nltk затем перейдите в IDLE и откройте новый файл. Сохраните его как file.py..откройте файл file.py введите следующее: import nltk

nltk.download()

Ответ 12

Попробуйте скачать zip файлы с http://www.nltk.org/nltk_data/, а затем разархивировать, сохранить в папке Python, например, C:\ProgramData\Anaconda3\nltk_data

Ответ 13

Иногда на вашем офисном компьютере вы не можете автоматически загружать данные NLTK. Затем вы должны загрузить и установить их вручную.

Просто следуйте инструкциям, приведенным в сообщении ниже, чтобы иметь четкое представление: https://www.thinkinfi.com/2018/09/how-to-download-nltk-corpus-manually.html

Ответ 14

если вы уже сохранили имя файла nltk.py и снова переименуйте его в my_nltk_script.py. проверьте, существует ли еще файл nltk.py. Если да, то удалите их и запустите файл my_nltk.scripts.py, он должен работать!

Ответ 15

Я думаю, что вы, должно быть, назвали файл как nltk.py(или папка состоит из файла с этим именем), поэтому измените его на любое другое имя и попробуйте выполнить его....

Ответ 16

Вы можете попробовать:

>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*

happy nlp'ing.