Подтвердить что ты не робот

В чем разница между матрицей замешательства и таблицей непредвиденных обстоятельств?

Я пишу фрагмент кода для оценки моего алгоритма кластеризации, и я обнаружил, что для каждого вида метода оценки нужны базовые данные из матрицы m*n такой как A = {aij} где aij - это число точек данных, которые являются членами класс ci и элементы кластера kj.

Но в "Введение в интеллектуальный анализ данных" есть две матрицы такого типа (Панг-Нинг Тан и др.), Одна из них - Матрица путаницы, другая - Таблица непредвиденных обстоятельств. Я не до конца понимаю разницу между ними. Что лучше всего описывает матрицу, которую я хочу использовать?

4b9b3361

Ответ 1

Определение Википедии:

В области искусственного интеллекта матрица путаницы является инструмент визуализации, обычно используемый в контролируемом обучении (в неконтролируемое обучение обычно называется подходящей матрицей). каждый столбец матрицы представляет экземпляры в прогнозируемом классе, в то время как каждая строка представляет экземпляры в реальном классе.

Матрица замешивания должна быть ясной, она в основном показывает, сколько фактических результатов соответствует прогнозируемым результатам. Например, см. Эту матрицу путаницы

                 predicted class
                        c1  -  c2
  Actual class   c1     15  -   3
                ___________________
                 c2     0   -   2

Он сообщает, что:

  • Столбец1, строка 1 означает, что классификатор предсказал 15 элементов как принадлежащих классу c1, и на самом деле 15 элементов принадлежат классу c1 (что является правильным предсказанием)

  • вторая строка столбца 1 сообщает, что классификатор предсказал, что 3 элемента принадлежат классу c2, но они фактически принадлежат классу c1 (что является неправильным предсказанием)

  • Столбец 1 строка 2 означает, что ни один из элементов, которые действительно принадлежат классу c2, не был предсказан как принадлежащий классу c1 (что является неправильным предсказанием)

  • В столбце 2 строка 2 указано, что 2 элемента, принадлежащие классу c2, были предсказаны как принадлежащие классу c2 (что является правильным предсказанием)

Теперь см. формулу точности и частоты ошибок из вашей книги (глава 4, 4.2), и вы должны четко понимать, что такое матрица путаницы. Он используется для проверки точности классификатора с использованием данных с известными результатами. Метод K-Fold (также упоминаемый в книге) является одним из методов расчета точности классификатора, который также упоминался в вашей книге.

Теперь для таблицы непредвиденных обстоятельств: Определение Википедии:

В статистике таблица непредвиденных расходов (также называемая пересечением табуляция или кросс-вкладка) - это тип таблицы в матричном формате, который отображает (многомерное) частотное распределение переменных. Он часто используется для записи и анализа отношения между двумя или более категориальные переменные.

В процессе интеллектуального анализа данных таблицы непредвиденных обстоятельств используются, чтобы показать, какие элементы появились в чтении вместе, например, в транзакции или в корзине покупок. Например (это пример из упомянутой книги):

       Coffee  !coffee
tea    150       50      200
!tea   650       150     800
       800       200    1000   

Это говорит о том, что в 1000 ответах (ответы о них нравятся кофе и чай или оба или один из них, результаты опроса):

  • 150 человек любят как чай, так и кофе
  • 50 человек любят чай, но не любят кофе.
  • 650 человек не любят чай, но любят кофе.
  • 150 человек не любят ни чай, ни кофе.

Таблицы непредвиденных обстоятельств используются для поиска правил поддержки и уверенности в ассоциации, в основном для оценки правил ассоциации (см. главу 6, 6.7.1).

Теперь разница заключается в том, что Confusion Matrix используется для оценки производительности классификатора, и это говорит о том, насколько точный классификатор делает прогнозы относительно классификации, а таблица непредвиденных расходов используется для оценки правил ассоциации.

Теперь, прочитав ответ, google немного (всегда используйте google, пока вы читаете книгу), читайте то, что находится в книге, посмотрите несколько примеров и не забудьте решить несколько упражнений, приведенных в книге, и вы должны иметь четкую концепцию обоим из них, а также, что использовать в определенной ситуации и почему.

Надеюсь, что это поможет.

Ответ 2

Короче говоря, таблица непредвиденных обстоятельств используется для описания данных. и матрица путаницы, как уже указывали другие, часто используется при сравнении двух гипотез. Можно предположить, что предсказанная и фактическая классификация/классификация являются двумя гипотезами, причем основная истина - это ноль, а выход модели - альтернатива.