У меня есть CSV файл 100M (на самом деле много отдельных файлов csv) на 84GB. Мне нужно преобразовать его в файл HDF5 с одним набором данных с плавающей точкой. Я использовал h5py при тестировании без каких-либо проблем, но теперь я не могу сделать окончательный набор данных без нехватки памяти.
Как я могу записать на HDF5 без необходимости хранить весь набор данных в памяти? Я ожидаю действительный код здесь, потому что это должно быть довольно просто.
Я просто смотрел в pytables, но это не похоже на то, что класс массива (который соответствует набору данных HDF5) можно записать итеративно. Аналогично, pandas имеет методы read_csv
и to_hdf
в своем io_tools
, но я не могу загрузить весь набор данных за один раз, так что это не сработает. Возможно, вы можете помочь мне правильно решить проблему с помощью других инструментов в pytables или pandas.