Разница между PCA (анализ основных компонентов) и выбором функций

В чем разница между основным анализом компонентов (PCA) и выбором функций в машинном обучении? Является ли PCA средством выбора функций?

Ответ 1

PCA - это способ узнать, какие функции важны для лучшего описания дисперсии в наборе данных. Он чаще всего используется для уменьшения размерности большого набора данных, поэтому становится практичнее применять машинное обучение, где исходные данные по своей природе являются высокоразмерными (например, распознавание изображений).

PCA имеет ограничения, хотя, поскольку он полагается на линейные отношения между элементами элементов, и часто неясно, каковы отношения до начала. Поскольку он также "скрывает" элементы элементов, которые мало влияют на дисперсию данных, он иногда может искоренить небольшой, но значительный отличительный признак, который повлияет на производительность модели машинного обучения.

Ответ 2

Вы можете сделать выбор функции с помощью PCA.

Анализ основных компонентов (PCA) - это метод, который

"использует ортогональное преобразование для преобразования набора наблюдений возможно, скоррелированные переменные в набор значений некоррелированных переменные, называемые главными компонентами.

Вопрос о том, что СПС помогает нам в принципе ответить: из этих параметров M объясняют значащее количество вариаций содержится в наборе данных? PCA по существу помогает применять 80-20 правило: может ли небольшое подмножество параметров (скажем, 20%) объяснить 80% и более от изменения данных?

(см. здесь)

Но у него есть некоторые недостатки: он чувствителен к масштабу и дает больший вес данным с более высоким порядком величины. Нормализация данных не всегда может быть решением, как описано здесь:

http://www.simafore.com/blog/bid/105347/Feature-selection-with-mutual-information-Part-2-PCA-disadvantages

Существуют другие способы выбора функций:

Алгоритм выбора признаков можно рассматривать как комбинацию метод поиска для предложения новых подмножеств функций, а также который оценивает различные подмножества признаков. простейшим алгоритмом является проверка каждого возможного подмножества признаков который минимизирует частоту ошибок. Это исчерпывающий поиск пространства и является вычислительно неразрешимым для всех, кроме наименьший набор функций. Выбор показателя оценки в значительной степени влияет на алгоритм, и именно эти метрики оценки различать три основные категории выбора функции алгоритмы: обертки, фильтры и встроенные методы.

(см. здесь)

В некоторых полях извлечение функции может указывать на конкретные цели: при обработке изображений вы можете выполнить обнаружение blob, edge или ridge.

Ответ 3

Просто добавьте к очень хорошим ответам выше. Разница в том, что PCA попытается уменьшить размерность, исследуя, как одна особенность данных выражается в терминах других функций (linear dependecy). Выбор функции вместо этого учитывает цель. Он будет оценивать ваши входные переменные с точки зрения того, насколько они полезны для прогнозирования целевого значения. Это верно для одномерного выбора функции. Множественный выбор функций может также делать что-то, что можно считать формой PCA, в том смысле, что он отбросит некоторые функции на входе. Но не принимайте эту аналогию слишком далеко.

Ответ 4

Просто добавьте ответ @Roger Rowland. В контексте контролируемого обучения (классификация, регрессия) мне нравится думать о PCA как о "функциональном трансформаторе", а не о селекторе функций.

PCA основан на извлечении осей, на которых данные показывают самую высокую изменчивость. Хотя он "распространяет" данные на новой основе и может оказать большую помощь в неконтролируемом обучении, нет никакой гарантии, что новые оси согласуются с дискриминационными функциями в контролируемой проблеме.

Проще говоря, нет никакой гарантии, что ваши главные главные компоненты являются наиболее информативными, когда речь идет о предсказании зависимой переменной (например, метки класса).

Этот документ является полезным источником. Другая соответствующая перекрестная ссылка - здесь.