У меня есть текст на французском языке, который мне нужно обрабатывать в некотором роде. Для этого мне нужно:
- Сначала выделите текст в слова
- Затем леммитизируйте эти слова, чтобы избежать обработки одного и того же корня более одного раза
Насколько я вижу, wordnet lemmatizer в NLTK работает только с английским. Я хочу что-то, что может вернуть "vouloir", когда я даю ему "voudrais" и так далее. Я также не могу точно обозначить из-за апострофов. Любые указатели будут очень благодарны.:)