MAP метрика в обнаружении объекта и компьютерном видении

В компьютерном зрении и обнаружении объекта общий метод оценки - mAP. Что это такое и как оно рассчитывается?

Ответ 1

Цитаты из вышеупомянутой статьи Циссермана - 4.2. Оценка результатов (стр. 11):

Сначала "критерий перекрытия" определяется как пересечение-объединение больше 0,5. (например, если прогнозируемая ячейка удовлетворяет этому критерию относительно ячейки истинности земли, она считается обнаружением). Затем выполняется сопоставление между блоками GT и предсказанными блоками с использованием этого "жадного" подхода:

Выводы, обнаруженные методом, были назначены наземным объектам истинности, удовлетворяющим критерию перекрытия в порядке, ранжированном (уменьшающимся) доверительным выходом. Многократное обнаружение одного и того же объекта на изображении считалось ложным обнаружением, например, 5 обнаружений одного объекта считается за 1 правильное обнаружение и 4 ложных обнаружения

Следовательно, каждое предсказанное поле является либо Истинно-Позитивным, либо Ложно-Позитивным. Каждая коробка правды основывается на True-Positive. Истинных негативов нет.

Затем средняя точность вычисляется путем усреднения значений точности на кривой точного возврата, где коэффициент возврата находится в диапазоне [0, 0,1,..., 1] (например, среднее значение из 11 значений точности). Чтобы быть более точным, мы рассматриваем слегка скорректированную кривую PR, где для каждой точки кривой (p, r), если есть другая точка кривой (p ', r') такая, что p '> p и r'> = r, мы заменим p с максимальным p 'из этих точек.

Что мне до сих пор неясно, так это то, что делается с теми коробками GT, которые никогда не обнаруживаются (даже если достоверность равна 0). Это означает, что существуют определенные значения возврата, которых никогда не достигнет кривая точности возврата, и это делает вычисление средней точности выше неопределенного.

Редактировать:

Краткий ответ: в регионе, где отзыв недоступен, точность падает до 0.

Один из способов объяснить это - предположить, что когда порог достоверности приближается к 0, на всем изображении загорается бесконечное количество предсказанных ограничивающих рамок. Точность сразу же становится равной 0 (поскольку имеется только конечное число блоков GT), и повторный вызов продолжает расти на этой плоской кривой, пока мы не достигнем 100%.

Ответ 2

mAP - средняя средняя точность.

Его использование отличается в области информационного поиска (Reference [1] [2]) и настройки классификации нескольких объектов (Object Detection).

Чтобы вычислить его для Обнаружения объекта, вы вычисляете среднюю точность для каждого класса в своих данных на основе ваших прогнозов модели. Средняя точность связана с областью под кривой критического значения для класса. Тогда, принимая среднее значение этой средней точности индивидуального класса, вы получаете среднюю среднюю точность.

Чтобы вычислить среднюю точность, см. [3]

Ответ 3

Для обнаружения, общий способ определить, было ли одно предложение объекта правильным, является Пересечением по Объединению (IoU, IU). Это берет набор A предложенных пикселей объекта и набор истинных пикселей B объекта и вычисляет:

Обычно IoU> 0.5 означает, что это был удар, иначе это был сбой. Для каждого класса можно рассчитать

True Positive TP (c): предложение было сделано для класса c, и на самом деле был объект класса c
Ложноположительный FP (c): предложение было сделано для класса c, но нет объекта класса c
Средняя точность для класса c:

MAP (средняя средняя точность) составляет:

Примечание. Если кто-то хочет получить лучшие предложения, он увеличивает IoU с 0,5 до более высокого значения (до 1,0, что было бы идеально). Это можно обозначить через mAP @p, где p\in (0, 1) - это IoU.

[email protected][.5:.95] означает, что mAP рассчитывается по нескольким пороговым значениям, а затем снова усредняется

Изменение: Для получения более подробной информации см. Методы оценки COCO.

Ответ 4

Я думаю, что важной частью здесь является связь того, как обнаружение объектов можно рассматривать так же, как стандартные проблемы поиска информации, для которых существует по крайней мере одно превосходное описание средней точности.

Результатом какого-либо алгоритма обнаружения объекта является набор предлагаемых ограничивающих рамок, и для каждого из них - оценки достоверности и классификации (одна оценка на класс). Пусть пока игнорируют классификационные оценки и используют достоверность в качестве входных данных для пороговой двоичной классификации. Интуитивно понятно, что средняя точность представляет собой агрегирование по всем вариантам выбора порогового значения/порогового значения. Но ждать; Для того, чтобы рассчитать точность, нам нужно знать, является ли поле правильным!

Это где это становится запутанным/трудным; в отличие от типичных проблем поиска информации, у нас здесь есть дополнительный уровень классификации. То есть мы не можем сделать точное соответствие между блоками, поэтому нам нужно классифицировать, является ли ограничивающий прямоугольник правильным или нет. Решение состоит в том, чтобы по существу сделать жестко классифицированную классификацию размеров коробки; мы проверяем, достаточно ли оно перекрывается с любой истинной истиной, чтобы считаться "правильной". Порог для этой части выбирается здравым смыслом. Набор данных, с которым вы работаете, скорее всего, определит, каков этот порог для "правильной" ограничительной рамки. Большинство наборов данных просто устанавливают его на 0,5 IoU и оставляют на нем (я рекомендую сделать несколько ручных вычислений IoU [они не сложны], чтобы понять, насколько строгим является IoU 0,5 на самом деле).

Теперь, когда мы на самом деле определили, что значит быть "правильным", мы можем просто использовать тот же процесс, что и поиск информации.

Чтобы найти среднюю среднюю точность (mAP), вы просто стратифицируете предложенные блоки на основе максимума оценок классификации, связанных с этими полями, а затем усредняете (берете среднее значение) средней точности (AP) по классам.

TL;DR; проведите различие между определением, является ли предсказание ограничивающего прямоугольника "правильным" (дополнительный уровень классификации), и оценкой того, насколько точно достоверность прямоугольника информирует вас о "правильном" предсказании ограничивающего прямоугольника (полностью аналогично случаю поиска информации) и типичными описаниями MAP будет иметь смысл.

Стоит отметить, что область под кривой точности/повторного вызова - это то же самое, что и средняя точность, и мы по существу аппроксимируем эту область с помощью правила трапеции или правой руки для аппроксимации интегралов.

Ответ 5

Определение: mAP → средняя точность

В большинстве конкурсов по обнаружению объектов существует множество категорий для обнаружения, и оценка модели выполняется для одной конкретной категории каждый раз, когда конечным результатом является точка доступа этой категории.

Когда оценивается каждая категория, среднее значение всех точек доступа рассчитывается как конечный результат модели, то есть mAP.