Подтвердить что ты не робот

В scikit узнать, как обрабатывать данные, смешанные с численным и номинальным значением?

Я знаю, что вычисление в scikit-learn основано на NumPy, поэтому все это матрица или массив.

Как этот пакет обрабатывает смешанные данные (числовые и номинальные значения)?

Например, продукт может иметь атрибут "цвет" и "цена", где цвет является номинальным, а цена - числовой. Я замечаю, что для начисления номинальных данных существует модель под названием "DictVectorizer". Например, два продукта:

products = [{'color':'black','price':10}, {'color':'green','price':5}]

И результатом "DictVectorizer" может быть:

[[1,0,10],
 [0,1,5]]

Если для атрибута "цвет" существует множество разных значений, матрица будет очень скудной. И длинные функции ухудшают производительность некоторых алгоритмов, таких как деревья решений.

Можно ли использовать номинальное значение без необходимости создания фиктивных кодов?

4b9b3361

Ответ 1

Класс DecisionTree в scikit-learn нуждается в некотором рефакторинге, чтобы эффективно работать с категориальными особенностями высокой мощности (и, возможно, даже с естественно разреженными данными, такими как текстовые векторы TF-IDF).

Никто еще не работает над этим AFAIK.