В scikit узнать, как обрабатывать данные, смешанные с численным и номинальным значением?

Я знаю, что вычисление в scikit-learn основано на NumPy, поэтому все это матрица или массив.

Как этот пакет обрабатывает смешанные данные (числовые и номинальные значения)?

Например, продукт может иметь атрибут "цвет" и "цена", где цвет является номинальным, а цена - числовой. Я замечаю, что для начисления номинальных данных существует модель под названием "DictVectorizer". Например, два продукта:

products = [{'color':'black','price':10}, {'color':'green','price':5}]

И результатом "DictVectorizer" может быть:

[[1,0,10],
 [0,1,5]]

Если для атрибута "цвет" существует множество разных значений, матрица будет очень скудной. И длинные функции ухудшают производительность некоторых алгоритмов, таких как деревья решений.

Можно ли использовать номинальное значение без необходимости создания фиктивных кодов?

Ответ 1