Скажем, у меня есть категориальная функция, цвет, который принимает значения
['red', 'blue', 'green', 'orange'],
и я хочу использовать его для предсказания чего-то в случайном лесу. Если я разогреваю его кодирование (т.е. Меняю его на четыре фиктивные переменные), как мне сказать sklearn, что четыре фиктивные переменные - это действительно одна переменная? В частности, когда sklearn произвольно выбирает функции для использования на разных узлах, он должен включать в себя красные, синие, зеленые и оранжевые манекены вместе, или он не должен включать ни одного из них.
Я слышал, что нет способа сделать это, но я бы предположил, что должен быть способ справиться с категориальными переменными без произвольного кодирования их как чисел или чего-то подобного.