Я слышал о кластеризации для группировки похожих данных. Я хочу знать, как это работает в конкретном случае для String.
У меня есть таблица с более чем 100 000 слов.
Я хочу идентифицировать одно и то же слово с некоторыми отличиями (например: house, house!!, hooouse, HoUse, @house, "house", etc...
).
Что необходимо для определения сходства и группировки каждого слова в кластере? Какой алгоритм более рекомендуется для этого?