Коррелированные особенности и точность классификации

Я хотел бы задать каждому вопрос о том, как коррелированные функции (переменные) влияют на точность классификации алгоритмов машинного обучения. С коррелированными особенностями я подразумеваю корреляцию между ними, а не с целевым классом (т.е. Периметром и площадью геометрической фигуры или уровнем образования и средним доходом). На мой взгляд, коррелированные функции отрицательно влияют на точность алгоритма классификации, я бы сказал, потому что корреляция делает один из них бесполезным. Неужели это так? Изменяется ли проблема с учетом типа классификационного алгоритма? Любое предложение по документам и лекциям действительно приветствуется! Благодаря

Ответ 1

Коррелированные функции не влияют на точность классификации как таковую. Проблема в реалистичных ситуациях состоит в том, что мы имеем конечное число учебных примеров, с помощью которых можно обучать классификатор. Для фиксированного количества примеров обучения увеличение количества функций обычно повышает точность классификации до точки, но по мере того, как число функций продолжает увеличиваться, точность классификации будет в конечном итоге уменьшаться, потому что мы тогда не поддаются оценке по сравнению с большим количеством функций. Чтобы узнать больше о последствиях этого, посмотрите проклятие размерности.

Если две числовые функции отлично коррелированы, то дополнительная информация не добавляется (она определяется другой). Поэтому, если количество функций слишком велико (относительно размера выборки для обучения), тогда полезно уменьшить количество функций с помощью метода извлечения признаков (например, через основные компоненты)

Эффект корреляции зависит от типа классификатора. Некоторые непараметрические классификаторы менее чувствительны к корреляции переменных (хотя время обучения, вероятно, будет увеличиваться с увеличением количества функций). Для статистических методов, таких как максимальная вероятность Гаусса, наличие слишком большого количества коррелированных признаков относительно размера обучающей выборки сделает классификатор непригодным для использования в исходном пространстве признаков (матрица ковариации выборочных данных становится сингулярной).

Ответ 2

В целом, я бы сказал, что чем больше некоррелированных функций, тем лучше будет производительность классификатора. Учитывая набор высококоррелированных функций, может быть возможно использовать методы PCA, чтобы сделать их максимально ортогональными для повышения эффективности классификатора.