Кто-нибудь пытался применить более плавную метрику оценки до применения L-метода для определения количества кластеров k-значений в наборе данных? Если да, улучшали ли результаты? Или разрешить меньшее количество испытаний на k-методах и, следовательно, значительно увеличить скорость? Какой алгоритм/метод сглаживания вы использовали?
"L-Method" подробно описан в: Определение количества кластеров/сегментов в иерархических алгоритмах кластеризации/сегментации, Сальвадор и Чан
Это вычисляет метрику оценки для диапазона различных значений пробного кластера. Затем, чтобы найти колено (что происходит для оптимального количества кластеров), две линии устанавливаются с использованием линейной регрессии. Простой итерационный процесс применяется для улучшения подгонки колена - это использует существующие расчетные метрические расчеты и не требует повторных прогонов k-средних.
Для метрики оценки я использую обратную сторону упрощенной версии индекса Даннса. Упрощен для скорости (в основном мой диаметр и межкластерные вычисления упрощены). Обратная величина такова, что индекс работает в правильном направлении (т.е. Более низкий, как правило, лучше).
K-означает стохастический алгоритм, поэтому он обычно запускается несколько раз и выбирается наилучшим образом. Это работает очень хорошо, но когда вы делаете это для кластеров 1..N, время быстро складывается. Поэтому я заинтересован в том, чтобы проверить количество проверок. Общее время обработки может определить, является ли моя реализация практичной или нет - я могу отключить эту функцию, если не могу ускорить ее.