В чем разница между матрицей замешательства и таблицей непредвиденных обстоятельств?

Я пишу фрагмент кода для оценки моего алгоритма кластеризации, и я обнаружил, что для каждого вида метода оценки нужны базовые данные из матрицы m*n такой как A = {aij} где aij - это число точек данных, которые являются членами класс ci и элементы кластера kj.

Но в "Введение в интеллектуальный анализ данных" есть две матрицы такого типа (Панг-Нинг Тан и др.), Одна из них - Матрица путаницы, другая - Таблица непредвиденных обстоятельств. Я не до конца понимаю разницу между ними. Что лучше всего описывает матрицу, которую я хочу использовать?

Ответ 1

Определение Википедии:

В области искусственного интеллекта матрица путаницы является инструмент визуализации, обычно используемый в контролируемом обучении (в неконтролируемое обучение обычно называется подходящей матрицей). каждый столбец матрицы представляет экземпляры в прогнозируемом классе, в то время как каждая строка представляет экземпляры в реальном классе.

Матрица замешивания должна быть ясной, она в основном показывает, сколько фактических результатов соответствует прогнозируемым результатам. Например, см. Эту матрицу путаницы

                 predicted class
                        c1  -  c2
  Actual class   c1     15  -   3
                ___________________
                 c2     0   -   2

Он сообщает, что:

Столбец1, строка 1 означает, что классификатор предсказал 15 элементов как принадлежащих классу c1, и на самом деле 15 элементов принадлежат классу c1 (что является правильным предсказанием)
вторая строка столбца 1 сообщает, что классификатор предсказал, что 3 элемента принадлежат классу c2, но они фактически принадлежат классу c1 (что является неправильным предсказанием)
Столбец 1 строка 2 означает, что ни один из элементов, которые действительно принадлежат классу c2, не был предсказан как принадлежащий классу c1 (что является неправильным предсказанием)
В столбце 2 строка 2 указано, что 2 элемента, принадлежащие классу c2, были предсказаны как принадлежащие классу c2 (что является правильным предсказанием)

Теперь см. формулу точности и частоты ошибок из вашей книги (глава 4, 4.2), и вы должны четко понимать, что такое матрица путаницы. Он используется для проверки точности классификатора с использованием данных с известными результатами. Метод K-Fold (также упоминаемый в книге) является одним из методов расчета точности классификатора, который также упоминался в вашей книге.

Теперь для таблицы непредвиденных обстоятельств: Определение Википедии:

В статистике таблица непредвиденных расходов (также называемая пересечением табуляция или кросс-вкладка) - это тип таблицы в матричном формате, который отображает (многомерное) частотное распределение переменных. Он часто используется для записи и анализа отношения между двумя или более категориальные переменные.

В процессе интеллектуального анализа данных таблицы непредвиденных обстоятельств используются, чтобы показать, какие элементы появились в чтении вместе, например, в транзакции или в корзине покупок. Например (это пример из упомянутой книги):

       Coffee  !coffee
tea    150       50      200
!tea   650       150     800
       800       200    1000

Это говорит о том, что в 1000 ответах (ответы о них нравятся кофе и чай или оба или один из них, результаты опроса):

150 человек любят как чай, так и кофе
50 человек любят чай, но не любят кофе.
650 человек не любят чай, но любят кофе.
150 человек не любят ни чай, ни кофе.

Таблицы непредвиденных обстоятельств используются для поиска правил поддержки и уверенности в ассоциации, в основном для оценки правил ассоциации (см. главу 6, 6.7.1).

Теперь разница заключается в том, что Confusion Matrix используется для оценки производительности классификатора, и это говорит о том, насколько точный классификатор делает прогнозы относительно классификации, а таблица непредвиденных расходов используется для оценки правил ассоциации.

Теперь, прочитав ответ, google немного (всегда используйте google, пока вы читаете книгу), читайте то, что находится в книге, посмотрите несколько примеров и не забудьте решить несколько упражнений, приведенных в книге, и вы должны иметь четкую концепцию обоим из них, а также, что использовать в определенной ситуации и почему.

Надеюсь, что это поможет.

Ответ 2

Короче говоря, таблица непредвиденных обстоятельств используется для описания данных. и матрица путаницы, как уже указывали другие, часто используется при сравнении двух гипотез. Можно предположить, что предсказанная и фактическая классификация/классификация являются двумя гипотезами, причем основная истина - это ноль, а выход модели - альтернатива.