Подтвердить что ты не робот

Как интерпретировать классификацию weka?

Как мы можем интерпретировать результат классификации в weka, используя наивные байки?

Как вычисляется среднее значение, отклонение std, сумма веса и точность?

Как рассчитывается статистика каппа, средняя абсолютная ошибка, ошибка квадратного квадрата и т.д.

Какова интерпретация матрицы путаницы?

Ответ 1

Ниже приведен пример вывода для наивного классификатора Байеса с использованием 10-кратной перекрестной проверки. Там много информации, и то, что вы должны сосредоточить, зависит от вашего приложения. Я объясню некоторые из приведенных ниже результатов, чтобы вы начали.

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

Правильно и неправильно классифицированные экземпляры показывают процент тестовых экземпляров, которые были правильно и неправильно классифицированы. Необработанные числа показаны в матрице путаницы, причем a и b представляют метки классов. Здесь было 100 экземпляров, поэтому проценты и необработанные числа складываются, aa + bb= 59 + 12 = 71, ab + ba= 27 + 2 = 29.

Процент правильно классифицированных экземпляров часто называют точностью или точностью выборки. У этого есть некоторые недостатки как оценка эффективности (не случайная скорректированная, не чувствительная к распределению класса), таким образом Вы вероятно захотите рассмотреть некоторые из других чисел. Площадь ROC, или область под кривой ROC, является моей предпочтительной мерой.

Каппа - это скорректированная по шансам мера согласия между классификациями и истинными классами. Он рассчитывался путем принятия соглашения, ожидаемого случайно от наблюдаемого соглашения и деления на максимально возможное соглашение. Значение больше 0 означает, что ваш классификатор работает лучше, чем вероятность (это действительно должно быть!).

Частоты ошибок используются для численного прогнозирования, а не для классификации. В числовом предсказании предсказания не являются правильными или неправильными, ошибка имеет величину, и эти меры отражают это.

Надеюсь, что вы начнете.

Ответ 2

Чтобы уточнить ответ michaeltwofish, некоторые примечания по остальным значениям:

Тариф TP: скорость истинных положительных результатов (экземпляры, правильно классифицированные как заданный класс)
FP Rate: скорость ложных срабатываний (случаи, ложно классифицированные как заданный класс)
Точность: доля экземпляров, которые действительно относятся к классу, разделенному на общие экземпляры, классифицированные как этот класс
Отзыв: доля экземпляров, классифицированных как данный класс, деленная на фактическое общее количество в этом классе (эквивалентно ставке TP)
F-Measure: комбинированная мера точности и запоминания, рассчитанная как 2 * Precision * Recall/(Precision + Recall)

Что касается измерения площади ROC, я согласен с michaeltwofish, что это одно из самых важных значений, производимых Weka. "Оптимальный" классификатор будет иметь значения площади ROC, приближающиеся к 1, причем 0,5 сравнимо с "случайным угадыванием" (аналогично статистике Каппы 0).

Следует отметить, что при интерпретации результатов необходимо учитывать "баланс" набора данных. Несбалансированные наборы данных, в которых непропорционально большое количество экземпляров относятся к определенному классу, могут приводить к высокой точности, даже если классификатор может не быть особенно хорош.

Дальнейшее чтение:

Ответ 3

Он дает каждое значение "50050000" для некоторых алгоритмов, тогда как для других классификаторов эти значения составляют около 49,7, 87,4, 98,2 и т.д.