У меня есть набор (2k - 4k) небольших строк (3-6 символов), и я хочу сгруппировать их. Поскольку я использую строки, предыдущие ответы на Как работает кластеризация (особенно String clustering)?, сообщила мне, что Расстояние Левенштейна полезно использовать как функцию расстояния для строк. Кроме того, поскольку я не знаю заранее количество кластеров, иерархическая кластеризация - это путь, а не k-означает.
Хотя я получаю проблему в ее абстрактной форме, я не знаю, какой легкий способ это сделать. Например, MATLAB или R - лучший выбор для фактической реализации иерархической кластеризации с пользовательской функцией (расстояние Левенштейна). Для обоих программ можно легко найти реализацию расстояния Левенштейна. Кластерная часть кажется сложнее. Например Кластеризация текста в MATLAB вычисляет массив расстояний для всех строк, но я не могу понять, как использовать массив расстояний для фактического получения кластеризации. Можете ли вы, чтобы кто-нибудь из вас, гуру, показал мне способ реализации иерархической кластеризации в MATLAB или R с помощью специальной функции?