Уменьшение размера в категориальных данных с отсутствующими значениями

У меня есть модель регрессии, в которой зависимая переменная непрерывна, но девяносто процентов независимых переменных являются категориальными (как упорядоченными, так и неупорядоченными), и около тридцати процентов записей имеют отсутствующие значения (чтобы усугубить ситуацию, они отсутствуют случайно любой шаблон, то есть более сорока пяти процентов данных hava, по крайней мере, одного отсутствующего значения). Нет априорной теории для выбора спецификации модели, поэтому одной из ключевых задач является уменьшение размера перед запуском регрессии. Хотя мне известно о нескольких методах уменьшения размерности для непрерывных переменных, мне не известно о подобной статистической литературе для категориальных данных (за исключением, возможно, как части анализа соответствия, которая в основном представляет собой вариацию анализа основных компонентов на частотной таблице). Позвольте мне также добавить, что набор данных имеет умеренные размеры 500000 наблюдений с 200 переменными. У меня два вопроса.

Есть ли хорошая статистическая ссылка для сокращения размерности для категориальных данных наряду с надежным вменением (я думаю, что первая проблема - это вменение, а затем уменьшение размера)?
Это связано с реализацией вышеуказанной проблемы. Я использовал R значительно раньше и, как правило, активно использует транскан и функцию переноса для непрерывных переменных и использует вариацию метода дерева для приведения категориальных значений. У меня есть рабочее знание Python, поэтому, если что-то хорошо для этой цели, то я буду использовать его. Любые указатели на реализацию в python или R будут очень полезны. Спасибо.

Ответ 1

Что касается вменения категориальных данных, я бы предложил проверить пакет mice. Также ознакомьтесь с этой презентацией, которая объясняет, как она вменяет многомерные категориальные данные. Другой пакет для Mutliple Imput of неполных многомерных данных Amelia. Amelia включает некоторые ограниченные возможности для обработки порядковых и номинальных переменных.

Что касается уменьшения размерности для категориальных данных (т.е. способа упорядочения переменных в однородных кластерах), я бы предложил метод Множественный анализ корреспонденции который даст вам скрытые переменные, которые максимизируют однородность кластеров. Аналогично тому, как это делается в основном анализе компонентов (PCA) и Factor Analysis, решение MCA также может быть повернуто для увеличения простоты компонентов. Идея поворота - найти подмножества переменных, которые более четко совпадают с вращающимися компонентами. Это означает, что максимизация простоты компонентов может помочь в интерпретации факторов и кластеризации переменных. В R MCA методы включены в пакеты ade4, MASS, FactoMineR и ca ( как минимум). Что касается FactoMineR, вы можете использовать его через графический интерфейс, если добавить его в качестве дополнительного меню к уже предложенным пакетом Rcmdr, установив RcmdrPlugin.FactoMineR