У меня есть модель регрессии, в которой зависимая переменная непрерывна, но девяносто процентов независимых переменных являются категориальными (как упорядоченными, так и неупорядоченными), и около тридцати процентов записей имеют отсутствующие значения (чтобы усугубить ситуацию, они отсутствуют случайно любой шаблон, то есть более сорока пяти процентов данных hava, по крайней мере, одного отсутствующего значения). Нет априорной теории для выбора спецификации модели, поэтому одной из ключевых задач является уменьшение размера перед запуском регрессии. Хотя мне известно о нескольких методах уменьшения размерности для непрерывных переменных, мне не известно о подобной статистической литературе для категориальных данных (за исключением, возможно, как части анализа соответствия, которая в основном представляет собой вариацию анализа основных компонентов на частотной таблице). Позвольте мне также добавить, что набор данных имеет умеренные размеры 500000 наблюдений с 200 переменными. У меня два вопроса.
- Есть ли хорошая статистическая ссылка для сокращения размерности для категориальных данных наряду с надежным вменением (я думаю, что первая проблема - это вменение, а затем уменьшение размера)?
- Это связано с реализацией вышеуказанной проблемы. Я использовал R значительно раньше и, как правило, активно использует транскан и функцию переноса для непрерывных переменных и использует вариацию метода дерева для приведения категориальных значений. У меня есть рабочее знание Python, поэтому, если что-то хорошо для этой цели, то я буду использовать его. Любые указатели на реализацию в python или R будут очень полезны. Спасибо.