Я ищу класс или метод, который занимает длинную строку из 100 слов и токенизирует, удаляет стоп-слова и стебли для использования в ИК-системе.
Например:
"Большой толстый кот, сказал" ваш самый забавный парень, которого я знаю ", к кенгуру..."
токенизатор удаляет пунктуацию и возвращает ArrayList
слов
средство удаления стоп-слова будет удалять слова типа "the", "to" и т.д.
стволовый сократил бы каждое слово их "корень", например "забавный" стал бы забавным
Большое спасибо заранее.