Я ищу алгоритм, который принимает 2 строки и вернет мне "коэффициент подобия".
В принципе, у меня будет вход, который может быть орфографическим, перенесены буквы и т.д., и я должен найти самое близкое соответствие (имена) в списке возможных значений, которые у меня есть.
Это не для поиска в базе данных. У меня будет список из 500 или около того строк, которые будут сопоставляться со всеми, менее 30 символов, поэтому он может быть относительно медленным.
Я знаю, что это существует, я видел его раньше, но я не могу запомнить его имя.
Редактировать: Спасибо, что указали Левенштейна и Хэмминга. Теперь, какой я должен реализовать? Они в основном измеряют разные вещи, оба из которых могут использоваться для того, что я хочу, но я не уверен, какой из них более уместен.
Я читал об алгоритмах, Хэмминг кажется явно быстрее. Поскольку ни один из них не обнаружит транспонированных двух символов (например, Иордания и Йодран), которые, я считаю, будут распространенной ошибкой, которая будет более точной для того, что я хочу? Может кто-нибудь мне немного рассказать о компромиссах?