Похоже, что алгоритмы регрессии работают с функциями, представленными в виде чисел. Например:
Этот набор данных не содержит категориальных функций/переменных. Совершенно ясно, как сделать регрессию на этих данных и прогнозировать цену.
Но теперь я хочу сделать регрессионный анализ данных, которые содержат категориальные особенности:
Есть 5 функций: District
, Condition
, Material
, Security
, Type
Как я могу сделать регресс на этих данных? Нужно ли вручную преобразовывать все эти строковые/категориальные данные в числа? Я имею в виду, если мне нужно создать некоторые правила кодирования и в соответствии с этими правилами преобразовать все данные в числовые значения. Есть ли простой способ преобразовать строковые данные в числа без необходимости вручную создавать собственные правила кодирования? Может быть, в Python есть библиотеки, которые можно использовать для этого? Есть ли риск того, что регрессионная модель будет как-то неверной из-за "плохого кодирования"?