Скажем, у меня есть этот текст = I love apples, kiwis, oranges and bananas
, а searchString = kiwis and bananas
и алгоритм подобия говорят индекс Jaccard. Как я могу эффективно найти подстроку в text
, которая имеет самое высокое сходство с searchString
.
В основном я пытаюсь найти части текста (текст имеет высокие ошибки, орфографические ошибки, дополнительные символы и пробелы), которые соответствуют списку ключевых слов, которые у меня есть.