Я занимаюсь многими статистическими работами и использую Python в качестве основного языка. Некоторые из наборов данных, с которыми я работаю, могут принимать 20 ГБ памяти, что делает работу с ними с использованием функций памяти в numpy, scipy и PyIMSL практически невозможной. Язык статистического анализа SAS имеет здесь большое преимущество в том, что он может работать с данными с жесткого диска, а не с жесткой обработкой в памяти. Но я хочу избежать необходимости писать много кода в SAS (по разным причинам), и поэтому пытаюсь определить, какие у меня есть варианты с Python (помимо покупки большего количества аппаратного обеспечения и памяти).
Я должен уточнить, что такие подходы, как map-reduce, не помогут в значительной части моей работы, потому что мне нужно работать с полными наборами данных (например, вычислять квантили или подгонять модель логистической регрессии).
Недавно я начал играть с h5py и думаю, что это лучший вариант, который я нашел, чтобы позволить Python действовать как SAS и работать данные с диска (через файлы hdf5), при этом все еще можно использовать numpy/scipy/matplotlib и т.д. Мне бы хотелось услышать, есть ли у кого-нибудь опыт использования Python и h5py в аналогичной настройке и что они нашли. Кто-нибудь мог использовать Python в настройках "больших данных", до сих пор доминирующих SAS?
EDIT: покупка дополнительного оборудования/памяти, безусловно, может помочь, но с точки зрения ИТ мне трудно продать Python организации, которая должна анализировать огромные наборы данных, когда Python (или R, или MATLAB и т.д.) необходимо провести данных в памяти. SAS продолжает иметь сильную точку продажи здесь, потому что в то время как дисковая аналитика может быть медленнее, вы можете уверенно справляться с огромными наборами данных. Итак, я надеюсь, что Stackoverflowers могут помочь мне разобраться, как уменьшить воспринимаемый риск, используя Python в качестве основного языка аналитики данных.