HDF5 занимает больше места, чем CSV?

Рассмотрим следующий пример:

Подготовьте данные:

import string
import random
import pandas as pd

matrix = np.random.random((100, 3000))
my_cols = [random.choice(string.ascii_uppercase) for x in range(matrix.shape[1])]
mydf = pd.DataFrame(matrix, columns=my_cols)
mydf['something'] = 'hello_world'

Установите максимальное сжатие для HDF5:

store = pd.HDFStore('myfile.h5',complevel=9, complib='bzip2')
store['mydf'] = mydf
store.close()

Сохранить также в CSV:

mydf.to_csv('myfile.csv', sep=':')

Результат:

myfile.csv имеет размер 5.6 МБ.
myfile.h5 имеет размер 11 МБ.

Разница возрастает по мере увеличения наборов данных.

Я попытался использовать другие методы и уровни сжатия. Это ошибка? (Я использую Pandas 0.11 и самую последнюю стабильную версию HDF5 и Python).

-rw-rw-r-- 1 jreback users 203200986 May 19 20:58 test.csv -rw-rw-r-- 1 jreback users 88007312 May 19 20:59 test.h5 In [1]: df = DataFrame(randn(1000000,10)) In [9]: df Out[9]: <class 'pandas.core.frame.DataFrame'> Int64Index: 1000000 entries, 0 to 999999 Data columns (total 10 columns): 0 1000000 non-null values 1 1000000 non-null values 2 1000000 non-null values 3 1000000 non-null values 4 1000000 non-null values 5 1000000 non-null values 6 1000000 non-null values 7 1000000 non-null values 8 1000000 non-null values 9 1000000 non-null values dtypes: float64(10) In [5]: %timeit df.to_csv('test.csv',mode='w') 1 loops, best of 3: 12.7 s per loop In [6]: %timeit df.to_hdf('test.h5','df',mode='w') 1 loops, best of 3: 825 ms per loop In [7]: %timeit pd.read_csv('test.csv',index_col=0) 1 loops, best of 3: 2.35 s per loop In [8]: %timeit pd.read_hdf('test.h5','df') 10 loops, best of 3: 38 ms per loop

Подготовьте данные:

Установите максимальное сжатие для HDF5:

Сохранить также в CSV:

Ответ 1