Подтвердить что ты не робот

Что означает параметр classwt в RandomForest в пакете RandomForest в R?

Страница справки для randomforest::randomforest() говорит:

"classwt - Приоритеты классов. Не нужно добавлять до одного. Игнорируется для регрессии.

Невозможно установить параметр classwt, если у вас тяжелые несбалансированные данные, т.е. Приоритеты классов сильно отличаются?

Как мне установить classwt при обучении модели на наборе данных с 3 классами с вектором priors, равным (p1, p2, p3), и в тестовых наборах priors (q1, q2, q3)?

4b9b3361

Ответ 1

может установить параметр classwt, если у вас тяжелые неуравновешенные данные - приоритеты классов сильно отличаются?

Да, значения параметров classwt могут быть полезны для несбалансированных наборов данных. И я согласен с йораном, что эти значения преобразуются в вероятности для выборочных данных обучения (согласно аргументам Бреймана в его оригинальной статье).

Как установить classwt, когда в наборе данных обучения с 3 классами вы имеете вектор priors, равный (p1, p2, p3), и в тестовых наборах priors (q1, q2, q3)?

Для обучения вы можете просто указать

rf <- randomForest(x=x, y=y, classwt=c(p1,p2,p3))

В тестовом наборе не могут использоваться приоритеты: 1) такой вариант в методе predict для пакета randomForest отсутствует; 2) веса имеют смысл только для обучения модели, а не для предсказания.