Двигатели с открытым исходным кодом?

Мы ищем механизм машинного перевода с открытым исходным кодом, который может быть включен в наш рабочий процесс локализации. Мы рассмотрим следующие варианты:

Moses (С++)
Джошуа (Java)
Phrasal (Java)

Среди них Моисей имеет самую широкую поддержку сообщества и опробован многими компаниями и исследователями локализации. Мы фактически склоняемся к Java-движку, так как наши приложения все на Java. Кто-нибудь из вас использовал Joshua или Phrasal как часть вашего рабочего процесса. Не могли бы вы поделиться с ними своим опытом? Или, Моисей слишком далеко опережает их с точки зрения возможностей, которые он предоставляет, и легкости интеграции.

И мы требуем, чтобы двигатель поддерживал:

Обучение, связанное с конкретным доменом (т.е. оно должно поддерживать отдельные таблицы фраз для каждого домена, к которому принадлежат входные данные).
Инкрементальное обучение (т.е. избегание переучивания модели с нуля каждый раз, когда мы хотим использовать некоторые новые учебные данные).
Распараллеливание процесса перевода.

Ответ 1

Этот вопрос лучше задают в списке рассылки Моисея ([email protected]), я думаю. Есть много людей, работающих с различными типами систем, поэтому вы получите объективный ответ. Кроме того, здесь мой ввод:

Что касается Java: не имеет значения, на каком языке написана система MT. Не обижайтесь, но вы можете с уверенностью предположить, что даже если код был написан на языке, с которым вы были знакомы, было бы слишком сложно понять, если бы не было более глубокое знание MT. Итак, вы ищете интерфейсы. Моисей xml-rpc отлично работает.
Что касается систем MT: найдите лучшие результаты, проигнорируйте язык программирования, на котором он написан. Результаты здесь: matrix.statmt.org. Люди, использующие вашу систему MT, заинтересованы в выходе не в ваших настройках кодирования.
Что касается всего предприятия: как только вы начнете предлагать выход MT, убедитесь, что вы можете быстро его адаптировать. MT быстро переходит к процессу конвейера, в котором MT-система является основным (а не единственным) компонентом. Поэтому сосредоточьтесь на ремонтопригодности. В идеальном случае вы сможете подключить любую систему MT к вашей инфраструктуре.

И здесь некоторые данные о ваших запросах на функцию:

Обучение, связанное с доменом: вам не нужна эта функция. Вы получаете лучшие результаты MT, используя обучение данных, специфичное для клиента.
Инкрементальное обучение: см. Статистический машинный перевод на основе потоков
Распараллеливание процесса перевода: вам придется реализовать это самостоятельно. Обратите внимание, что большинство программных продуктов MT является чисто академическим и никогда не достигнет рубежа 1.0. Конечно, это помогает, если доступен многопоточный сервер (Moses), но даже тогда вам понадобится много кода для использования.

Надеюсь, это поможет. Не стесняйтесь спрашивать меня, если у вас есть еще вопросы.

Ответ 2

Многое продвигалось вперед, поэтому я решил дать обновление по этой теме и оставить предыдущий ответ там, чтобы зафиксировать прогресс.

Обучение, связанное с конкретным доменом: методы адаптации домена могут быть полезны, если ваши данные взяты из разных источников, и вам нужно оптимизировать их для поддомена. По нашему опыту, нет единственного решения, которое последовательно работает лучше всего, поэтому вам нужно попробовать как можно больше подходов и сравнить результаты. В списке рассылки Моисея есть почта, в которой перечислены возможные методы: http://thread.gmane.org/gmane.comp.nlp.moses.user/9742/focus=9799various. На следующей странице также дается обзор текущих исследований: http://www.statmt.org/survey/Topic/DomainAdaptation

Инкрементальное обучение: на IWSLT 2013 был интересный разговор: http://www.iwslt2013.org/downloads/Assessing_Quick_Update_Methods_of_Statistical_Translation_Models.pdf он продемонстрировал, что текущие инкрементные методы (1) не учитывают вашу систему в автономном режиме, поэтому у вас нет реального "живого обновления" ваших моделей (2), которые превзошли все повторные тренировки. Кажется, что проблема еще не решена.

Распараллеливание процесса перевода: сервер moses отстает от двоичного кода moses-cmd. Поэтому, если вы хотите использовать последние функции, лучше начать с moses-cmd. Кроме того, сообщество не сдержало обещание никогда не выпускать версию 1.0:-). Фактически вы можете найти последнюю версию (2.1) здесь: http://www.statmt.org/moses/?n=Moses.Releases