Существуют ли библиотеки для вычисления оценок семантического подобия для пары предложений?
Я знаю семантическую базу WordNet и как я могу сгенерировать оценку для двух слов, но я ищу библиотеки, которые выполняют все задачи предварительной обработки, такие как удаление портов, прекращение удаления слова и т.д., в целом предложения и выводит оценку того, как связаны два предложения.
Я нашел работу, которая написана с использованием платформы .NET, которая вычисляет счет, используя массив шагов предварительной обработки. Есть ли какой-нибудь проект, который делает это в python?
Я не ищу последовательность операций, которая помогла бы мне найти оценку (как просят здесь)
Я хотел бы реализовать каждый этап самостоятельно или склеить функции из разных библиотек, чтобы он работал для пар предложений, но мне это нужно в основном как инструмент для тестирования выводов по данным.
EDIT: Я подумывал об использовании NLTK и вычислении оценки для каждой пары слов, повторяющихся по двум предложениям, а затем сделал выводы из стандартного отклонения результатов, но я не знаю если это законная оценка сходства. Кроме того, это займет много времени для длинных строк.
Опять же, я ищу проекты/библиотеки, которые уже реализуют это разумно. Что-то, что позволяет мне сделать это:
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889