Распространенное количество документации и примеров NLTK посвящено леммитизации и истощению, но очень редко по таким вопросам нормализации, как:
- преобразование всех букв в нижний или верхний регистр
- удаление пунктуации
- преобразование чисел в слова
- удаление знаков акцента и других диакритических знаков
- расширения сокращений
- удаление стоп-слов или "слишком распространенных" слов
- канонизация текста (опухоль = опухоль, это = она)
Пожалуйста, укажите мне, где в NLTK копать. Любые эквиваленты NLTK (JAVA или любые другие) для вышеупомянутых целей приветствуются. Спасибо.
UPD. Я написал библиотеку python для нормализации текста для целей преобразования текста в речь https://github.com/soshial/text-normalization. Это может вам подойдет.