Проблема: Мне нужно оценить набор многолинейных логистических многоуровневых моделей и не найти подходящий пакет R. Каков наилучший пакет R для оценки таких моделей? STATA 13 недавно добавила эту функцию в свои многоуровневые модели смешанных эффектов, поэтому технология оценки таких моделей, по-видимому, доступна.
Детали:. Ряд вопросов исследования требует оценки моделей многомерных логистических регрессий, в которых переменная результата категорична. Например, биологам может быть интересно исследовать, какой тип деревьев (например, сосны, клены, дубы) сильнее всего подвержены кислотным дождям. Исследователям рынка может быть интересно, существует ли связь между возрастом клиентов и частотой покупок в Target, Safeway или Walmart. Эти случаи имеют общий характер, что переменная результата является категориальной (неупорядоченной), и многокомпонентные логистические регрессии являются предпочтительным методом оценки. В моем случае я изучаю различия в типах миграции людей, причем переменная результата (mig) кодируется 0 = не переносится, 1 = внутренняя миграция, 2 = международная миграция. Вот упрощенная версия моего набора данных:
migDat=data.frame(hhID=1:21,mig=rep(0:2,times=7),age=ceiling(runif(21,15,90)),stateID=rep(letters[1:3],each=7),pollution=rep(c("high","low","moderate"),each=7),stringsAsFactors=F)
hhID mig age stateID pollution
1 1 0 47 a high
2 2 1 53 a high
3 3 2 17 a high
4 4 0 73 a high
5 5 1 24 a high
6 6 2 80 a high
7 7 0 18 a high
8 8 1 33 b low
9 9 2 90 b low
10 10 0 49 b low
11 11 1 42 b low
12 12 2 44 b low
13 13 0 82 b low
14 14 1 70 b low
15 15 2 71 c moderate
16 16 0 18 c moderate
17 17 1 18 c moderate
18 18 2 39 c moderate
19 19 0 35 c moderate
20 20 1 74 c moderate
21 21 2 86 c moderate
Моя цель - оценить влияние возраста (независимой переменной) на вероятность (1) миграции внутри страны, а не миграции, (2) миграция на международном уровне, а не миграция, (3) миграция внутри страны или миграция на международном уровне. Дополнительным осложнением является то, что мои данные работают на разных уровнях агрегации (например, загрязнение работает на государственном уровне), и я также заинтересован в прогнозировании воздействия загрязнения воздуха (загрязнения) на вероятность приступить к определенному типу движения.
Неудобные решения: Можно было бы оценить набор отдельных моделей логистической регрессии, уменьшив набор данных для каждой модели только двумя типами миграции (например, модель 1: только случаи, закодированные mig = 0 и mig = 1; Модель 2: только коды, закодированные mig = 0 и mig = 2; Модель 3: только коды, закодированные mig = 1 и mig = 2). Такая простая многоуровневая модель логистической регрессии может быть оценена с помощью lme4, но этот подход менее идеален, поскольку он не учитывает должного учета влияния пропущенных случаев. Второе решение состояло бы в том, чтобы запустить многолинейные логистические многоуровневые модели в MLWiN через R, используя пакет R2MLwiN. Но поскольку MLWiN не является открытым исходным кодом, а сгенерированный объект трудно использовать, я бы предпочел избежать этого варианта. На основе всеобъемлющего интернет-поиска, похоже, существует некоторый спрос на такие модели, но я не знаю о хорошем R-пакете. Поэтому было бы здорово, если бы некоторые эксперты, которые запускали такие модели, могли дать рекомендацию, и если есть несколько пакетов, возможно, некоторые преимущества/недостатки. Я уверен, что такая информация будет очень полезным ресурсом для нескольких пользователей R. Спасибо!!
Бест, Рафаэль