Я хотел бы рассчитать хэш класса Python, содержащий набор данных для машинного обучения. Хэш предназначен для кэширования, поэтому я думал о md5
или sha1
.
Проблема в том, что большая часть данных хранится в массивах NumPy; они не предоставляют член __hash__()
. В настоящее время я делаю pickle.dumps()
для каждого члена и вычисляю хэш на основе этих строк. Однако я нашел следующие ссылки, указывающие, что один и тот же объект может привести к различным строкам сериализации:
Каким будет лучший способ вычисления хэша для класса Python, содержащего массивы Numpy?