У меня есть python script, который создает список списков времени безотказной работы сервера и производительности, где каждый под-список (или "строка" ) содержит определенную статистику кластера. Например, красиво отформатированный выглядит примерно так:
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
Итак, в виде списка это может выглядеть так:
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
Мой вопрос: какой лучший способ определить выбросы в каждом столбце? Или же выбросы не обязательно являются лучшим способом для атаки на проблему "плохого"? В приведенных выше данных я определенно хотел бы узнать о bos-b и ord-b, а также ams-a, так как частота ошибок настолько высока, но другие могут быть отброшены. В зависимости от столбца, поскольку высшее значение не обязательно хуже и не ниже, я пытаюсь найти наиболее эффективный способ сделать это. Кажется, что numpy часто упоминается для такого рода вещей, но не уверен, где даже начать с него (к сожалению, я больше сисадмин, чем статистик...).
Спасибо заранее!