Я хочу сравнить строки фонетически в приложении для Android. Но здесь особый случай, я хочу сравнить слова индийского языка, написанные на английском языке. Например, я хочу проверить, являются ли "Эджу" "Адху" "Йету" фонетически равными, все они означают одинаково на тамильском языке. Но люди, которые используют английский script для написания индийских языков, используют разные варианты написания слова. Как сравнить слова в этом случае?
Я опробовал Левенштейна. Но я не уверен, как преобразовать число, которое оно возвращает к равенству.
Я опробовал Soundex, коды Soundex не совпадают при изменении первой буквы слова. Но он может найти похожие звучащие части. Я не понимаю, как это работает.
soundex.encode("Yethu") (soundex.encode("Edhu")) (soundex.encode("adhu"))
Y300 E300 A300