В Python я использую NLTK alignment module
, чтобы создать выравнивание слов между параллельными текстами. Выравнивание битеков может быть трудоемким процессом, особенно когда это делается на значительных корпусах. Было бы неплохо сделать выравнивание в пакетном режиме в один день и использовать эти выравнивания позже.
from nltk import IBMModel1 as ibm
biverses = [list of AlignedSent objects]
model = ibm(biverses, 20)
with open(path + "eng-taq_model.txt", 'w') as f:
f.write(model.train(biverses, 20)) // makes empty file
Как только я создаю модель, как я могу (1) сохранить ее на диск и (2) повторно использовать ее позже?