В чем разница между множественным R-квадратом и скорректированным R-квадратом в однократной регрессии наименьших квадратов?

Может ли кто-нибудь объяснить статистически наивному, что такое разница между Multiple R-squared и Adjusted R-squared? Я делаю одновариантный регрессионный анализ следующим образом:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

Результаты:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216

Ответ 1

"Регулировка" в скорректированном R-квадрате связана с количеством переменных и количеством наблюдений.

Если вы продолжаете добавлять переменные (предсказатели) к вашей модели, R-squared будет улучшаться, т.е. предсказатели будут объяснять дисперсию, но некоторые из этих улучшений могут быть вызваны только случайностью. Таким образом, скорректированный R-квадрат пытается исправить это, принимая во внимание соотношение (N-1)/(N-k-1), где N = количество наблюдений и k = число переменных (предикторов).

Вероятно, это не проблема в вашем случае, поскольку у вас есть одна вариация.

Некоторые ссылки:

Ответ 2

Скорректированное R-квадрат близко, но отличается от значения R2. Вместо того, чтобы основываться на объясненной сумме SSR квадратов и общей сумме квадратов SSY, она основана на общей дисперсии (количество, которое мы обычно не вычисляем), s2T = SSY/(n - 1) и дисперсии ошибок MSE (из таблицы ANOVA) и выполняется так: скорректированный R-squared = (s2T - MSE)/s2T.

Этот подход обеспечивает лучшую основу для оценки улучшения подгонки из-за добавления объясняющей переменной, но в ней нет простой обобщающей интерпретации, которую R2 имеет.

Если я не ошибся, вы должны проверить значения скорректированного R-квадрата и R-квадрата следующим образом:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

С другой стороны, R2 является: SSR/SSY, где SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY

Ответ 3

R-квадрат не зависит от количества переменных в модели. Скорректированное R-квадрат.

Скорректированное R-квадрат добавляет штраф за добавление переменных к модели, которые не связаны с переменной, которую вы пытаетесь объяснить. Вы можете использовать его, чтобы проверить, соответствует ли переменная той вещи, которую вы пытаетесь объяснить.

Скорректированный R-квадрат R-квадрат с добавлением некоторых делений, чтобы он зависел от числа переменных в модели.

Ответ 4

Обратите внимание, что в дополнение к числу предсказательных переменных приведенная выше формула R-squared также регулирует размер выборки. Небольшой образец даст обманчиво большое R-квадрат.

Ping Yin and Xitao Fan, J. of Experimental Education 69 (2): 203-224, "Оценка усадки R-квадратов при множественной регрессии", сравнивает различные методы настройки r-квадрата и заключает, что обычно используемые приведенные выше, не являются хорошими. Они рекомендуют формулу Олкина и Пратта.

Однако, я видел некоторые признаки того, что размер популяции оказывает гораздо больший эффект, чем указывает любая из этих формул. Я не уверен, что любая из этих формул достаточно хороша, чтобы вы могли сравнивать регрессии, выполненные с очень разными размерами выборки (например, 2000 против 200 000 выборок, стандартные формулы почти не будут корректировать размер выборки). Я бы сделал некоторую перекрестную проверку, чтобы проверить r-квадрат на каждом образце.