Подтвердить что ты не робот

В ggplot2, что представляет собой конец строк boxplot?

Я не могу найти описание того, что представляют собой конечные точки строк boxplot.

Например, здесь указаны значения точек выше и ниже, где заканчиваются строки. enter image description here

(Я понимаю, что верхняя и нижняя части ящика - 25-й и 75-й процентиль, а осевая линия - 50-е). Я предполагаю, что есть точки выше и ниже строк, которые не представляют значения max/min.

4b9b3361

Ответ 1

"Точки" в конце boxplot представляют собой выбросы. Существует множество различных правил для определения, является ли точка outlier, но метод, который использует R и ggplot, является "правилом 1.5". Если точка данных:

  • меньше Q1 - 1.5 * IQR
  • больше Q3 + 1,5 * IQR

то эта точка классифицируется как "выброс". Усы определяются как:

upper whisker = min (max (x), Q_3 + 1,5 * IQR)

нижний вискер = max (min (x), Q_1 - 1,5 * IQR)

где IQR = Q_3 - Q_1, длина окна. Таким образом, верхний усов расположен на меньшем из максимального значения x и Q_3 + 1,5 IQR, тогда как нижний нитевидный кристалл расположен на большем из наименьших значений x и Q_1 - 1,5 IQR.

Дополнительная информация

  • Смотрите страницу wikipedia boxplot для альтернативных правил исключения.
  • На самом деле существует множество способов вычисления квантилей. Посмотрите на `? Quantile для описания девяти различных методов.

Пример

Рассмотрим следующий пример

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

Это дает следующий график: enter image description here

По мере уменьшения диапазона от 1.7 до 1.5 мы уменьшаем длину усов. Однако range=0 - частный случай - он эквивалентен "range = infinity"

Ответ 2

Я думаю, что ggplot использует стандартные значения по умолчанию, то же самое, что и boxplot: "бакенбарды простираются до самой крайней точки данных, которая не превышает [1.5], умноженной на длину поля в поле"

Смотрите: boxplot.stats

Ответ 3

Учебное пособие по P1IMSA 8 - Понимание видеороликов и площадок Whisker дает визуальное пошаговое объяснение (Tukey) диаграмм и полей вискеров.

В 4 м 23 я объясняю смысл концов вискеров и его связь с 1.5 * IQR.

Несмотря на то, что диаграмма, показанная в видео, была сделана с использованием D3.js, а не R, его объяснения сочетаются с реализациями R упомянутых ящиков.