Подтвердить что ты не робот

Улучшение кластеризации k-средних

В моих примечаниях к лекции по компьютерному видению упоминается, что производительность алгоритма кластеризации k-средних может быть улучшена, если мы знаем стандартное отклонение кластеров. Как так?

Мое мышление заключается в том, что мы можем использовать стандартные отклонения, чтобы придумать лучшую начальную оценку с помощью сегментации, основанной на гистограмме. Как вы думаете? Спасибо за любую помощь!

Ответ 1

Ваш лектор может иметь в виду

объединение соседних кластеров, если результирующая дисперсия кластера находится ниже порогового значения изолирующие элементы, которые "далеки", если дисперсия кластера превышает пороговое значение или перемещение некоторых элементов между соседними кластерами, если оно уменьшает сумму квадратов ошибок

(эта эволюция действует как глобальная процедура оптимизации и предотвращает плохие последствия первоначального назначения кластерных средств, которые у вас есть в k-значении)

Подводя итог, если вы знаете дисперсию, вы знаете, насколько разнообразны кластеры, так что это проще, например. обнаруживать выбросы (которые обычно следует класть в отдельные кластеры).