Учитывая большой (10s of GB) CSV файл смешанного текста/чисел, какой самый быстрый способ создать файл hdf5 с тем же контентом, при этом разумное использование памяти? Я хотел бы использовать модуль h5py
, если это возможно.
В приведенном ниже примере игрушек я нашел невероятно медленный и невероятно быстрый способ записи данных в hdf5. Будет ли лучше всего писать hdf5 в кусках в 10 000 строк или около того? Или есть лучший способ написать массивный объем данных в такой файл?
import h5py
n = 10000000
f = h5py.File('foo.h5','w')
dset = f.create_dataset('int',(n,),'i')
# this is terribly slow
for i in xrange(n):
dset[i] = i
# instantaneous
dset[...] = 42