У меня есть сценарий, где у меня несколько тысяч экземпляров данных. Сами данные представлены как одно целое значение. Я хочу иметь возможность обнаруживать, когда экземпляр является экстремальным.
Например, со следующими примерами данных:
a = 10
b = 14
c = 25
d = 467
e = 12
d
явно аномалия, и я хотел бы выполнить определенное действие, основанное на этом.
У меня возникло соблазн просто попробовать использовать мои знания о конкретном домене для обнаружения аномалий. Например, определите расстояние от полезного значения, и проверьте это на основе эвристики. Тем не менее, я думаю, что, вероятно, лучше, если я исследую более общие, надежные методы обнаружения аномалий, которые имеют некоторую теорию за ними.
Поскольку мои знания в области математики ограничены, я надеюсь найти технику, которая проста, например, с использованием стандартного отклонения. Надеемся, что одномерный характер данных сделает эту довольно распространенную проблему, но если требуется дополнительная информация для сценария, оставьте комментарий, и я расскажу больше.
Изменить: подумал, что я бы добавил больше информации о данных и о том, что я пробовал, если он делает один ответ более правильным, чем другой.
Все значения являются положительными и отличными от нуля. Я ожидаю, что значения составят нормальное распределение. Это ожидание основано на интуиции домена, а не на анализе, если это не плохо, предположите, пожалуйста, дайте мне знать. В терминах кластеризации, если не существует также стандартных алгоритмов для выбора значения k, мне было бы трудно предоставить это значение алгоритму k-Means.
Действие, которое я хочу предпринять для outlier/anomaly, представляет его пользователю и рекомендует, чтобы точка данных была в основном удалена из набора данных (я не буду вдаваться в то, как они это сделают, но это имеет смысл для моего домена), поэтому он не будет использоваться как вход для другой функции.
До сих пор я пробовал три сигмы, а тест IQR outlier на моем ограниченном наборе данных. Значения флажков IQR, которые не являются достаточно экстремальными, три сигмы указывают на примеры, которые лучше соответствуют моей интуиции в домене.
Информация об алгоритмах, методах или ссылках на ресурсы, чтобы узнать об этом конкретном сценарии, действительна и приветствует ответы.
Что такое рекомендуемый метод обнаружения аномалий для простых одномерных данных?