Есть ли способ вычислить что-то вроде общей "оценки подобия" строки? В некотором смысле, что я не сравниваю две строки вместе, но я получаю некоторое число (хеш) для каждой строки, которая позже может сказать мне, что две строки являются или не похожи. Две аналогичные строки должны иметь похожие (близкие) хеши.
Рассмотрим эти строки и оценки в качестве примера:
Hello world 1000
Hello world! 1010
Hello earth 1125
Foo bar 3250
FooBarbar 3750
Foo Bar! 3300
Foo world! 2350
Вы можете видеть, что Hello world! и Hello world похожи, а их оценки близки друг к другу.
Таким образом, поиск наиболее похожих строк для данной строки будет выполняться путем вычитания заданных значений строк из других оценок и последующего сортировки их абсолютного значения.