Python nltk.clean_html не реализован

Я пытаюсь использовать


Я получаю следующую ошибку:

Файл "/usr/local/lib/python2.7/dist-packages/nltk-3.0.0-py2.7.egg/nltk/util.py", строка 346, в файле clean_html   raise NotImplementedError ( "Чтобы удалить разметку HTML, используйте функцию BeautifulSoup get_text()" ) NotImplementedError: Чтобы удалить разметку HTML, используйте функцию BeautifulSoup get_text()

Когда я смотрю файл util.py, я вижу, что он не реализован:

def clean_html(html):
    raise NotImplementedError ("To remove HTML markup, use BeautifulSoup get_text() function")

Не должно ли оно быть реализовано?


Ответ 2

Как отмечает другой ответ, ntlk отключил эту функцию и рекомендует: "Чтобы удалить разметку HTML, используйте функцию BeautifulSoup get_text()". Прекрасный суп, вероятно, это путь, если вы извлекаете текст из определенного элемента, но если вы хотите, чтобы текст для всей страницы IMHO проходил с помощью функции nltk. Вот сравнение между двумя подходами:

import mechanize
import nltk
from bs4 import BeautifulSoup
from html2text import html2text 
import re

def clean_html(html):
    Copied from NLTK package.
    Remove HTML markup from the given string.

    :param html: the HTML string to be cleaned
    :type html: str
    :rtype: str

    # First we remove inline JavaScript/CSS:
    cleaned = re.sub(r"(?is)<(script|style).*?>.*?(</\1>)", "", html.strip())
    # Then we remove html comments. This has to be done before removing regular
    # tags since comments can contain '>' characters.
    cleaned = re.sub(r"(?s)<!--(.*?)-->[\n]?", "", cleaned)
    # Next we can remove the remaining tags:
    cleaned = re.sub(r"(?s)<.*?>", " ", cleaned)
    # Finally, we deal with whitespace
    cleaned = re.sub(r"&nbsp;", " ", cleaned)
    cleaned = re.sub(r"  ", " ", cleaned)
    cleaned = re.sub(r"  ", " ", cleaned)
    return cleaned.strip()

url = "http://www.nytimes.com/2015/08/31/business/challenged-on-left-and-right-the-fed-faces-a-decision-on-rates.html"
br = mechanize.Browser()
br.addheaders = [('User-agent', 'Firefox')]
html = br.open(url).read().decode('utf-8')
cleanhtml = clean_html(html)
text = html2text(cleanhtml)
soup = BeautifulSoup(html)
text2 = soup.get_text()

С помощью функции nltk я получаю хороший чистый результат (см. здесь, пост прошел более 30 000 символов, поэтому мне пришлось поместить его в пастебин для публикации). И с красивым супом:

Как вы можете видеть, если вы просматриваете его, версия Beautiful Soup включает в себя множество невидимого текста. Не очень красиво.