Почему F-Measure является гармоническим средним, а не средним арифметическим мер точности и повторения?

Когда мы вычисляем F-меру с учетом как Точности, так и Напоминания, мы берем среднее гармоническое значение двух мер вместо простого среднего арифметического.

Какова интуитивная причина для принятия гармонического среднего, а не простого среднего?

Ответ 1

Здесь у нас уже есть некоторые подробные ответы, но я подумал, что некоторая дополнительная информация будет полезна для некоторых парней, которые хотят углубиться в глубину (особенно, почему F measure).

Согласно теории измерения составная мера должна удовлетворять следующим 6 определениям:

Связность (можно упорядочить две пары) и транзитивность (если e1> = e2 и e2> = e3, то e1> = e3)
Независимость: два компонента независимо влияют на эффективность.
Условие Томсена: Учитывая, что при постоянном отзыве (точности) мы находим разницу в эффективности для двух значений точности (отзыв), тогда эту разницу нельзя устранить или обратить вспять путем изменения постоянного значения.
Ограниченная разрешимость.
Каждый компонент важен: изменение одного, оставляя другой константой, дает изменение эффективности.
Архимедово свойство для каждого компонента. Это просто гарантирует, что интервалы на компоненте сопоставимы.

Затем мы можем вывести и получить функцию эффективности:

И обычно мы используем не эффективность, а гораздо более простую F-оценку, потому что:

Теперь, когда у нас есть общая формула меры F:

где мы можем поставить больше опор на отзыв или точность, установив бета, потому что бета определяется следующим образом:

Если мы вспомним вес, более важный, чем точность (все релевантные выбраны), мы можем установить бета равным 2, и мы получим меру F2. И если мы делаем обратное и весовую точность выше, чем отзыв (как можно больше выбранных элементов имеют отношение, насколько это возможно, например, в некоторых сценариях исправления грамматических ошибок, таких как CoNLL), мы просто устанавливаем бета равным 0,5 и получаем меру F0,5. И, очевидно, мы можем установить бета как 1, чтобы получить наиболее часто используемую меру F1 (среднее гармоническое точности и отзыва).

Я думаю, что в какой-то степени я уже ответил, почему мы не используем среднее арифметическое.

Ответ 2

Чтобы объяснить, рассмотрим, например, какое среднее значение составляет 30 миль в час и 40 миль в час? если вы ездите на 1 час с каждой скоростью, средняя скорость в течение 2 часов - это среднее арифметическое, 35 миль в час.

Однако, если вы едете на одинаковое расстояние при каждой скорости - скажем, 10 миль - тогда средняя скорость более 20 миль - это среднее значение гармоник 30 и 40, около 34,3 миль в час.

Причина в том, что для того, чтобы среднее значение было действительным, вам действительно нужны значения, которые должны быть в одинаковых масштабированных единицах. Мили в час нужно сравнивать за одно и то же количество часов; для сравнения по тому же количеству миль, которое вам нужно, чтобы усреднить часы за милю, а это именно то, что означает гармоническое среднее.

Точность и напоминание имеют истинные положительные значения в числителе и разные знаменатели. Чтобы усреднить их, на самом деле имеет смысл только усреднить их обратные сигналы, поэтому среднее значение гармоник.

Ответ 3

Потому что он наказывает экстремальные значения больше.

Рассмотрим тривиальный метод (например, всегда возвращающий класс A). Существуют бесконечные элементы данных класса B и один элемент класса A:

Precision: 0.0
Recall:    1.0

Если взять среднее арифметическое, оно будет на 50% правильным. Несмотря на наихудший возможный результат! При среднем значении гармоники F1-мерка равна 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Другими словами, чтобы иметь высокий F1, вам нужно иметь высокую точность и отзыв.

Ответ 4

Гармоническое среднее является эквивалентом среднего арифметического для обратных величин, которые должны быть усреднены средним арифметическим. Точнее, с гармоническим средним вы преобразуете все свои числа в "среднюю" форму (принимая обратную), вы берете среднее арифметическое, а затем преобразуете результат обратно в исходное представление (возвращая обратно обратно).

Точность и отзыв являются "естественными" обратными, потому что их числитель одинаковый, а их знаменатели разные. Фракции более чувствительны к средним по средним арифметическим, когда они имеют один и тот же знаменатель.

Для большей интуиции предположим, что мы сохраняем постоянное число истинных положительных элементов. Затем, беря среднее значение гармоник точности и отзыва, вы неявно принимаете среднее арифметическое ложных срабатываний и ложных негативов. Это в основном означает, что ложные срабатывания и ложные негативы одинаково важны для вас, когда истинные положительные результаты остаются неизменными. Если алгоритм имеет N более ложных положительных элементов, но N меньше ложных отрицаний (при наличии одинаковых истинных положительных результатов), F-мер остается неизменным.

Другими словами, F-мера подходит, если:

Ошибки
одинаково плохи, являются ли они ложными срабатываниями или ложными негативами.
количество ошибок измеряется относительно количества истинных положительных результатов
истинные негативы неинтересны

Точка 1 может быть или не быть верной, существуют взвешенные варианты F-меры, которые могут быть использованы, если это предположение неверно. Точка 2 вполне естественна, так как мы можем ожидать, что результаты будут масштабироваться, если мы просто классифицируем все больше и больше очков. Относительные числа должны оставаться неизменными.

Точка 3 интересна. Во многих приложениях негативы являются естественным дефолтом, и даже может быть сложно или произвольно указать, что действительно считается истинным отрицательным. Например, пожарная тревога имеет истинное отрицательное событие каждую секунду, каждую наносекунду, каждый раз, когда время Planck прошло и т.д. Даже кусок скалы имеет эти истинные отрицательные события обнаружения огня все время.

Или в случае обнаружения лица большую часть времени вы "правильно не возвращаете" миллиарды возможных областей изображения, но это не интересно. Интересны случаи, когда вы возвращаете предлагаемое обнаружение или когда вы должны его вернуть.

В отличие от этого, точность классификации одинаково относится к истинным позитивам и истинным негативам и более подходит, если общее количество выборок (классификационных событий) хорошо определено и довольно мало.

Ответ 5

Приведенные выше ответы хорошо объяснены. Это просто для быстрого ознакомления, чтобы понять природу среднего арифметического и среднего гармонического с графиками. Как видно из графика, рассмотрите ось X и ось Y как точность и отзыв, а ось Z как показатель F1. Таким образом, исходя из графика среднего гармонического значения, точность и отзыв должны способствовать равномерному росту показателя F1 в отличие от среднего арифметического.

Это для среднего арифметического.

Это для Гармоники.

Ответ 6

Вот интуитивный способ просмотра среднего гармонического и посмотреть, как оно наказывает экстремальные значения.

Очевидно, что оценка F1 становится выше, если и отзыв, и точность высоки.

Это изображение из этого видео.