URL-адрес в файле readme недействителен (http://www.fjoch.com/mkcls.html и http://www.fjoch.com/GIZA++.html). Есть хороший учебник о giza ++? Или есть некоторые альтернативы, которые имеют полную документацию?
Есть ли учебник о giza ++?
Ответ 1
Ниже приводится отрывок из учебника, которое я собираю для класса. Я напишу ссылку, когда у меня есть что-то еще. (NB: Предполагается, что вы успешно установили GIZA ++ - v2 в системе * nix.)
1) Начните с двух файлов данных, содержащих параллельные предложения, по одному предложению на строку. Например, пара параллельных англо-французских файлов может выглядеть следующим образом.
Пример 1 - train.en
I gave him the book .
He read the book .
He loved the book .
Пример 2 - train.fr
Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .
2) Запустите эти файлы через plain2snt.out, чтобы получить целевые и исходные словарные файлы (.vcb), а также файл пары предложений (.snt).
В каталоге GIZA ++ запустите:
./plain2snt.out TEXT1 TEXT2
где TEXT1 и TEXT2 - файлы данных, описанные в шаге 1.
Это создает четыре файла в том же каталоге, что и TEXT1 и TEXT2 (при условии, что они находятся в одном каталоге):
- TEXT1_TEXT2.snt
- TEXT1.vcb
- TEXT2_TEXT1.snt
- TEXT2.vcb
Файлы vocab содержат уникальный (целочисленный) идентификатор для каждого слова в тексте (NB: не tokenized/lemmatized), слово/строка и количество раз, когда эта строка возникла. Они разделены одним символом пробела.
Файлы предложений содержат числа. Для каждой пары предложений есть три строки: первый - это количество числа раз, когда пара предложений содержится в корпусе, а вторая и третья - это строка (разделенных пробелами) чисел, соответствующих записям слов в вокальные файлы. На основе соглашения об именах для файлов *.snt первый файл считается источником, а второй считается целевым. Например, в файле TEXT1_TEXT2.snt первая строка будет состоять из подсчета количества раз, когда первая пара предложений произошла в корпусе, вторая строка будет строкой чисел, соответствующей словам в файле TEXT1.vcb, а третья строка будет строкой чисел, соответствующей словам в файле TEXT2.vcb.
(NB: есть примеры этого формата на http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1.)
3) Теперь TEXT1.vcb, TEXT2.vcb и любой из двух *.snt файлов могут использоваться как входные данные для GIZA ++ для создания выравнивания.
Например:
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
Но обратите внимание, что когда я пытался запустить это, мне пришлось переименовать TEXT1_TEXT2.snt в нечто без подчеркивания в имени, чтобы получить правильный вывод.
Ответ 2
Этот учебник Powerpoint работал у меня: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
Ответ 3
Это может быть?
Полный источник: http://code.google.com/p/giza-pp/issues/detail?id=8
Ответ 4
Существует дополнительное объяснение того, как форматировать входные файлы и как запускать GIZA ++ здесь:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt
Ответ 5
Это очень полезно: http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/
Специалисты IIT-B представили приятные и подробные презентации для настройки и использования GIZA ++ и MOSES.
Некоторые из них: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf