Можно ли инициализировать повторную запись numpy, которая будет содержать строки, не зная длину строк заранее?
В качестве (надуманного) примера:
mydf = np.empty( (numrows,), dtype=[ ('file_name','STRING'), ('file_size_MB',float) ] )
Проблема заключается в том, что я создаю свою повторную запись заранее, чтобы заполнить ее информацией, и я не обязательно знаю максимальную длину file_name
заранее.
Все мои попытки приводят к усечению поля строки:
>>> mydf = np.empty( (2,), dtype=[('file_name',str),('file_size_mb',float)] )
>>> mydf['file_name'][0]='foobarasdf.tif'
>>> mydf['file_name'][1]='arghtidlsarbda.jpg'
>>> mydf
array([('', 6.9164002347457e-310), ('', 9.9413127e-317)],
dtype=[('file_name', 'S'), ('file_size_mb', '<f8')])
>>> mydf['file_name']
array(['f', 'a'],
dtype='|S1')
(В стороне, почему mydf['file_name']
показывает 'f' и 'a', а mydf
показывает '' и ''?)
Аналогично, если я инициализирую с типом (скажем) |S10
для file_name
, тогда вещи будут усечены на длине 10.
Единственный похожий вопрос, который я мог найти, это этот, но он вычисляет соответствующую длину строки априори и, следовательно, не совсем то же самое, что и мое (как я знаю ничего заранее).
Есть ли альтернатива, кроме инициализации file_name
с (например) |S9999999999999
(т.е. какой-то смешной верхний предел)?