Я импортирую большое количество журналов http (80GB +) в хранилище HDFStore Pandas для статистической обработки. Даже в одном файле импорта мне нужно загрузить содержимое при загрузке. Моя тактика до сих пор заключалась в том, чтобы прочитать анализируемые строки в DataFrame, а затем сохранить DataFrame в HDFStore. Моя цель состоит в том, чтобы ключ индекса был уникальным для одного ключа в DataStore, но каждый DataFrame снова перезапускает свое значение индекса. Я ожидал, что HDFStore.append() будет иметь некоторый механизм, чтобы сказать ему игнорировать значения индекса DataFrame и просто добавлять к моим существующим значениям ключевых слов HDFStore, но не может их найти. Как импортировать DataFrames и игнорировать содержащиеся в нем значения индекса, а HDFStore увеличивает его существующие значения индекса? Примерный пример ниже, каждые 10 строк. Естественно, реальная вещь будет больше.
if hd_file_name:
"""
HDF5 output file specified.
"""
hdf_output = pd.HDFStore(hd_file_name, complib='blosc')
print hdf_output
columns = ['source', 'ip', 'unknown', 'user', 'timestamp', 'http_verb', 'path', 'protocol', 'http_result',
'response_size', 'referrer', 'user_agent', 'response_time']
source_name = str(log_file.name.rsplit('/')[-1]) # HDF5 Tables don't play nice with unicode so explicit str(). :(
batch = []
for count, line in enumerate(log_file,1):
data = parse_line(line, rejected_output = reject_output)
# Add our source file name to the beginning.
data.insert(0, source_name )
batch.append(data)
if not (count % 10):
df = pd.DataFrame( batch, columns = columns )
hdf_output.append(KEY_NAME, df)
batch = []
if (count % 10):
df = pd.DataFrame( batch, columns = columns )
hdf_output.append(KEY_NAME, df)