Подтвердить что ты не робот

Почему мой процесс python использует столько памяти?

Я работаю над проектом, который включает использование python для чтения, обработки и записи файлов, которые иногда достигают нескольких сотен мегабайт. Иногда программа прерывается, когда я пытаюсь обработать некоторые особенно большие файлы. Он не говорит "ошибка памяти", но я подозреваю, что это проблема (на самом деле это не дает никаких оснований для отказа).

Я тестировал код на меньших файлах и смотрел "верх", чтобы узнать, что такое использование памяти, и обычно достигает 60%. top говорит, что у меня общая память 4050352k, поэтому 3.8Gb.

Тем временем я пытаюсь отслеживать использование памяти внутри самого python (см. мой вопрос от вчера) со следующим небольшим количеством кода:

mem = 0
for variable in dir():
    variable_ = vars()[variable]
    try: 
        if str(type(variable_))[7:12] == 'numpy':
            numpy_ = True
        else:
            numpy_ = False
    except:
        numpy_ = False
    if numpy_:
        mem_ = variable_.nbytes
    else:
        mem_ = sys.getsizeof(variable)
    mem += mem_
    print variable+ type: '+str(type(variable_))+' size: '+str(mem_)
print 'Total: '+str(mem)

Прежде чем я запустил этот блок, я установил все переменные, которые мне не нужны никому, закройте все файлы и цифры и т.д. После этого блока я использую subprocess.call() для запуска программы fortran, которая требуется для следующий этап обработки. Посмотрев сверху, когда запущена программа fortran, показано, что программа fortran использует ~ 100% от процессора, и ~ 5% от памяти, и что python использует 0% процессора и 53% памяти. Однако мой маленький фрагмент кода говорит мне, что все переменные в python составляют всего 23 Мб, что должно быть ~ 0,5%.

Итак, что происходит? Я бы не ожидал, что этот небольшой фрагмент даст мне возможность использовать память, но он должен быть точным с точностью до нескольких Мб. Или это просто то, что топ не замечает, что память была отклонена, но что она доступна для других программ, которые нуждаются в ней, если это необходимо?

В соответствии с запросом здесь упрощенная часть кода, использующего всю память (file_name.cub - это куб ISIS3, это файл, содержащий 5 слоев (диапазонов) одной и той же карты, первый слой - спектральное излучение, следующие 4 имеют отношение к широте, долготе и другим деталям. Это изображение с Марса, которое я пытаюсь обработать. StartByte - это значение, которое я ранее читал из заголовка ascii файла .cub, сообщающего мне начальный байт данные, образцы и линии - это размеры карты, также считанные из заголовка.):

latitude_array = 'cheese'   # It'll make sense in a moment
f_to = open('To_file.dat','w') 

f_rad = open('file_name.cub', 'rb')
f_rad.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_rad.read(StartByte-1))
header = None    
#
f_lat = open('file_name.cub', 'rb')
f_lat.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lat.read(StartByte-1))
header = None 
pre=struct.unpack('%df' % (Samples*Lines), f_lat.read(Samples*Lines*4))
pre = None
#
f_lon = open('file_name.cub', 'rb')
f_lon.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lon.read(StartByte-1))
header = None 
pre=struct.unpack('%df' % (Samples*Lines*2), f_lon.read(Samples*Lines*2*4))
pre = None
# (And something similar for the other two bands)
# So header and pre are just to get to the right part of the file, and are 
# then set to None. I did try using seek(), but it didn't work for some
# reason, and I ended up with this technique.
for line in range(Lines):
    sample_rad = struct.unpack('%df' % (Samples), f_rad.read(Samples*4))
    sample_rad = np.array(sample_rad)
    sample_rad[sample_rad<-3.40282265e+38] = np.nan  
    # And Similar lines for all bands
    # Then some arithmetic operations on some of the arrays
    i = 0
    for value in sample_rad:
        nextline = sample_lat[i]+', '+sample_lon[i]+', '+value # And other stuff
        f_to.write(nextline)
        i += 1
    if radiance_array == 'cheese':  # I'd love to know a better way to do this!
        radiance_array = sample_rad.reshape(len(sample_rad),1)
    else:
        radiance_array = np.append(radiance_array, sample_rad.reshape(len(sample_rad),1), axis=1)
        # And again, similar operations on all arrays. I end up with 5 output arrays
        # with dimensions ~830*4000. For the large files they can reach ~830x20000
f_rad.close()
f_lat.close()
f_to.close()   # etc etc 
sample_lat = None  # etc etc
sample_rad = None  # etc etc

#
plt.figure()
plt.imshow(radiance_array)
# I plot all the arrays, for diagnostic reasons

plt.show()
plt.close()

radiance_array = None  # etc etc
# I set all arrays apart from one (which I need to identify the 
# locations of nan in future) to None

# LOCATION OF MEMORY USAGE MONITOR SNIPPET FROM ABOVE

Итак, я соврал в комментариях об открытии нескольких файлов, это много экземпляров одного и того же файла. Я продолжаю только один массив, который не установлен в None, а размер составляет ~ 830x4000, хотя это как-то составляет 50% от моей доступной памяти. Я также пробовал gc.collect, но никаких изменений. Я был бы очень рад услышать любые советы о том, как я могу улучшить любой из этих кодов (связанных с этой проблемой или иным образом).

Возможно, я должен упомянуть: изначально я открывал файлы полностью (т.е. не по строкам, как указано выше), делая это по строкам, была первоначальная попытка сохранить память.

4b9b3361

Ответ 1

То, что вы защитили свои переменные, не означает, что процесс Python вернул выделенную память системе. Смотрите Как я могу явно освободить память в Python?.

Если gc.collect() не работает для вас, исследуйте разветвление и чтение/запись ваших файлов в дочерних процессах с использованием IPC. Эти процессы завершатся, когда они будут завершены, и освободят память обратно в систему. Ваш основной процесс будет продолжать работать с низким использованием памяти.