R Случайные леса Изменчивое значение

Я пытаюсь использовать пакет случайных лесов для классификации в R.

Переменные значения переменных перечислены ниже:

означает значение необработанного значения переменной x для класса 0
означает значение важного значения переменной x для класса 1
MeanDecreaseAccuracy
MeanDecreaseGini

Теперь я знаю, что они означают, так как я знаю их определения. Я хочу знать, как их использовать.

То, что я действительно хочу знать, это то, что означают эти значения только в контексте того, насколько они точны, что является хорошим значением, что плохое значение, каковы максимальные и минимальные значения и т.д.

Если переменная имеет высокий MeanDecreaseAccuracy или MeanDecreaseGini, значит, это важно или неважно? Также может быть полезна любая информация о сырых оценках. Я хочу знать все, что нужно знать об этих числах, которые имеют отношение к их применению.

Объяснение, которое использует слова "ошибка", "суммирование" или "перестановка", было бы менее полезным, чем более простое объяснение, в котором не было бы никакого обсуждения того, как работают случайные леса.

Как если бы я хотел, чтобы кто-то объяснил мне, как использовать радио, я бы не ожидал, что объяснение связано с тем, как радио преобразует радиоволны в звук.

Ответ 1

Объяснение, которое использует слова "ошибка", "суммирование" или "перестановка", было бы менее полезным, чем более простое объяснение, которое обсуждение того, как работают случайные леса.

Как если бы я хотел, чтобы кто-то объяснил мне, как использовать радио, я бы не стал ожидайте объяснения, связанного с тем, как радио преобразует радиоволны в звук.

Как бы вы объяснили, что цифры в WKRP 100.5 FM "означают", не вдаваясь в настоящие технические детали волновых частот? Честно говоря, параметры и связанные с ними проблемы с производительностью с помощью Random Forests трудно обдумать, даже если вы понимаете некоторые технические условия.

Вот мой комментарий к некоторым ответам:

-mean raw value score переменной x для класса 0

-mean необработанный показатель важности переменной x для класса 1

Упрощение с веб-страницы "Случайный лес" оценка необработанной важности оценивает, насколько полезнее, чем случайная, определенная предикторная переменная находится в успешной классификации данных.

-MeanDecreaseAccuracy

Я думаю, что это только в R-модуле, и я считаю, что он измеряет, насколько включение этого предиктора в модель уменьшает ошибку классификации.

-MeanDecreaseGini

Gini определяется как "несправедливость" при использовании для описания распределения доходов общества или меры "примеси node" в классификации по дереву. Низкое значение Gini (то есть более высокое уменьшение в Gini) означает, что конкретная предикторная переменная играет большую роль в разделении данных на определенные классы. Трудно описать, не говоря о том, что данные в деревьях классификации разбиваются на отдельные узлы на основе значений предикторов. Я не очень понимаю, как это улучшает производительность.

Ответ 2

Для вашей непосредственной заботы: более высокие значения означают, что переменные важнее. Это должно быть верно для всех указанных вами мер.

Случайные леса дают вам довольно сложные модели, поэтому может быть сложно интерпретировать меры важности. Если вы хотите легко понять, что делают ваши переменные, не используйте RF. Вместо этого используйте линейные модели или дерево (без ансамбля).

Ты сказал:

Объяснение, в котором используются слова "ошибка", "суммирование" или "перестановка", было бы менее полезно, чем более простое объяснение, которое не включало никаких обсуждение того, как случайные леса работы.

Было бы ужасно сложно объяснить гораздо больше, чем выше, если вы не заглянете и не узнаете, что такое случайные леса. Я предполагаю, что вы жалуетесь на руководство или раздел руководства Breiman:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Чтобы выяснить, насколько важна переменная, они заполняют ее случайным нежелательным эффектом ( "переставляют" ее), а затем видят, насколько снижается точность прогноза. MeanDecreaseAccuracy и MeanDecreaseGini работают таким образом. Я не уверен, что представляют собой сырые оценки важности.

Ответ 3

Интерпретируемость является довольно жесткой со случайными лесами. Хотя РФ является чрезвычайно надежным классификатором, он делает свои прогнозы демократическим путем. Под этим я подразумеваю, что вы строите сотни или тысячи деревьев, беря случайное подмножество ваших переменных и случайное подмножество ваших данных и создавайте дерево. Затем сделайте прогноз для всех не выбранных данных и сохраните предсказание. Он прочен, потому что он отлично справляется с капризами вашего набора данных (т.е. Он сглаживает беспорядочно высокие/низкие значения, случайные графики/образцы, измеряя одно и то же 4 разных способа и т.д.). Однако, если у вас есть некоторые высококоррелированные переменные, они могут показаться важными, поскольку они не всегда включены в каждую модель.

Один потенциальный подход со случайными лесами может помочь вам снизить ваши предиктора, а затем переключиться на обычную CART или попробовать пакет PARTY для моделей деревьев, основанных на выводах. Однако тогда вы должны быть осторожны в вопросах интеллектуального анализа данных и делать выводы о параметрах.