У меня есть набор данных из sklearn
, и я построил распределение данных load_diabetes.target
(т.е. значения регрессии, которые load_diabetes.data
используется для прогнозирования).
Я использовал это, потому что он имеет наименьшее количество переменных/атрибутов регрессии sklearn.datasets
.
Использование Python 3, Как я могу получить тип дистрибутива и параметры дистрибутива, которые наиболее близки?
Все, что я знаю, значения target
все положительные и искаженные (positve skew/right skew)., Есть ли способ в Python предоставить несколько дистрибутивов, а затем лучше всего подходит для данных/вектора target
? ИЛИ, чтобы на самом деле предложить соответствие, основанное на данных, которые были даны? Это было бы полезно для людей, имеющих теоретические статистические знания, но мало опыта применения его к "реальным данным".
Bonus Имеет ли смысл использовать этот тип подхода, чтобы выяснить, что будет с вашим задним распределением с "реальными данными"? Если нет, почему бы и нет?
from sklearn.datasets import load_diabetes
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import pandas as pd
#Get Data
data = load_diabetes()
X, y_ = data.data, data.target
#Organize Data
SR_y = pd.Series(y_, name="y_ (Target Vector Distribution)")
#Plot Data
fig, ax = plt.subplots()
sns.distplot(SR_y, bins=25, color="g", ax=ax)
plt.show()