Подтвердить что ты не робот

Есть ли учебник о giza ++?

URL-адрес в файле readme недействителен (http://www.fjoch.com/mkcls.html и http://www.fjoch.com/GIZA++.html). Есть хороший учебник о giza ++? Или есть некоторые альтернативы, которые имеют полную документацию?

4b9b3361

Ответ 1

Ниже приводится отрывок из учебника, которое я собираю для класса. Я напишу ссылку, когда у меня есть что-то еще. (NB: Предполагается, что вы успешно установили GIZA ++ - v2 в системе * nix.)


1) Начните с двух файлов данных, содержащих параллельные предложения, по одному предложению на строку. Например, пара параллельных англо-французских файлов может выглядеть следующим образом.

Пример 1 - train.en

I gave him the book . 
He read the book . 
He loved the book .

Пример 2 - train.fr

Je lui ai donne/ le livre .
Il a lu le livre .
Il aimait le livre .

2) Запустите эти файлы через plain2snt.out, чтобы получить целевые и исходные словарные файлы (.vcb), а также файл пары предложений (.snt).

В каталоге GIZA ++ запустите:

./plain2snt.out TEXT1 TEXT2

где TEXT1 и TEXT2 - файлы данных, описанные в шаге 1.

Это создает четыре файла в том же каталоге, что и TEXT1 и TEXT2 (при условии, что они находятся в одном каталоге):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

Файлы vocab содержат уникальный (целочисленный) идентификатор для каждого слова в тексте (NB: не tokenized/lemmatized), слово/строка и количество раз, когда эта строка возникла. Они разделены одним символом пробела.

Файлы предложений содержат числа. Для каждой пары предложений есть три строки: первый - это количество числа раз, когда пара предложений содержится в корпусе, а вторая и третья - это строка (разделенных пробелами) чисел, соответствующих записям слов в вокальные файлы. На основе соглашения об именах для файлов *.snt первый файл считается источником, а второй считается целевым. Например, в файле TEXT1_TEXT2.snt первая строка будет состоять из подсчета количества раз, когда первая пара предложений произошла в корпусе, вторая строка будет строкой чисел, соответствующей словам в файле TEXT1.vcb, а третья строка будет строкой чисел, соответствующей словам в файле TEXT2.vcb.

(NB: есть примеры этого формата на http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1.)

3) Теперь TEXT1.vcb, TEXT2.vcb и любой из двух *.snt файлов могут использоваться как входные данные для GIZA ++ для создания выравнивания.

Например:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt

Но обратите внимание, что когда я пытался запустить это, мне пришлось переименовать TEXT1_TEXT2.snt в нечто без подчеркивания в имени, чтобы получить правильный вывод.

Ответ 5

Это очень полезно: http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/

Специалисты IIT-B представили приятные и подробные презентации для настройки и использования GIZA ++ и MOSES.

Некоторые из них: http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-giza-mozes-jan2013.pdf

http://www.cse.iitb.ac.in/~anoopk/publications/presentations/moses_giza_intro.pdf

http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf