PCA и KNN алгоритм

Я использую KNN для классификации рукописных цифр. Я также теперь внедрил PCA, чтобы уменьшить размерность. С 256 я пошел на 200. Но я только замечаю, что, ~ 0.10% потери информации. Я удалил 56 измерений. Разве потеря не должна быть больше? Только когда я падаю до 5 измерений, я получаю 20% -ную потерю. Это нормально?

Ответ 1

Вы говорите, что после удаления 56 измерений вы потеряли почти никакой информации? Конечно, что точка PCA! Основной анализ компонентов, как указано в названии, поможет определить, какие измерения содержат информацию. И вы можете удалить остальные, что делает его самой большой частью.

Я хочу, чтобы некоторые примеры, в анализе генов, я читал документы, где размер уменьшается с 40 000 до 100 с помощью PCA, затем они делают некоторые магические вещи и имеют отличный классификатор с 19 размерами. Это подразумевает, что они потеряли практически никакой информации, когда удалили 39'900 измерений!

Ответ 2

Это нормально, да (и, как сказал Фезвес, точка вашего дела). Ваш случай на самом деле является хорошим примером, где вы можете видеть, как это возможно.

Взгляните на свои данные (которые всегда важны для машинного обучения, знают ваши данные). Если у вас есть изображения с черными рукописными цифрами на белом фоне, существует высокая вероятность того, что пиксели в некоторых углах являются белыми для всех образцов (у меня было это в одном углу, когда я делал машинное обучение на письменных цифрах). Таким образом, на самом деле нет никакой информации в этом пикселе. Если вы отбросите это как вход для своего KNN или ANN или что-то еще, вы получите те же результаты.