Подтвердить что ты не робот

Интеллектуальная транслитерация в PHP

Мне интересно писать PHP script (я приветствую предложения языка-агностики), которые транслитерируют предложение или слово, написанное на английском языке (phoenetically) в script другого языка. Поскольку я смотрю на английский, написанный phoenetically (то есть на слух): мне придется иметь дело с вариантами написания одного и того же слова.

Предполагается, что для романизации нет стандарта (например, на китайском языке, у вас есть упрощенный Уэйд и т.д.)

Есть ли у кого-нибудь советы о том, где я могу начать?

EDIT: я делаю это исключительно для образовательных целей, и изначально у меня создалось впечатление, что для выяснения связи между вариантами написания (которые можно найти в корпусе сообщений IM, сообщения Facebook, написанные на латинизированная форма языка), вам понадобится какой-то инструмент машинного обучения. Тем не менее, я хотел бы знать, был ли я на правильном пути, и мне нужна помощь в выяснении того, что я должен изучить, чтобы заставить это работать (например: какой инструмент машинного обучения я должен изучать?),

4b9b3361

Ответ 1

Я знаю, по крайней мере, с японцами, у вас есть определенное количество комбинаций букв.

Итак, вы можете сделать что-то вроде создания соответствующего массива, подобного этому

array(
  'oo' => 'おう',
  'oh' => 'おう',
  'ou' => 'おう'
)

Конечно, продолжайте, и убедитесь, что вы не соответствуете "su", когда это должно быть "tsu".

Это, конечно, будет отправной точкой.

Машинное обучение, вероятно, наиболее практично с китайцами... но здесь грубое начало хираганы: https://gist.github.com/1154969

Ответ 2

Попробуйте Расширение транслитерации PHP от Derick Rethans:

Это расширение позволяет транслитерировать текст в нелатинском символы (например, китайский, кириллический, греческий и т.д.) для латинских символов. Помимо транслитерации расширение также содержит фильтры для верхний и нижний регистр латиницы, кириллицы и греки, и выполняют специальные формы транслитерации, такие как конвертирующие лигатуры, такие как Норвежский "æ" до "ae" и нормализация пунктуации и интервала.

Кажется, он уже начал то, что вы ищете! (если вы не хотите заниматься английским языком > латинским языком, но, по крайней мере, это касается скриптов других языков.:))