Мне интересно писать PHP script (я приветствую предложения языка-агностики), которые транслитерируют предложение или слово, написанное на английском языке (phoenetically) в script другого языка. Поскольку я смотрю на английский, написанный phoenetically (то есть на слух): мне придется иметь дело с вариантами написания одного и того же слова.
Предполагается, что для романизации нет стандарта (например, на китайском языке, у вас есть упрощенный Уэйд и т.д.)
Есть ли у кого-нибудь советы о том, где я могу начать?
EDIT: я делаю это исключительно для образовательных целей, и изначально у меня создалось впечатление, что для выяснения связи между вариантами написания (которые можно найти в корпусе сообщений IM, сообщения Facebook, написанные на латинизированная форма языка), вам понадобится какой-то инструмент машинного обучения. Тем не менее, я хотел бы знать, был ли я на правильном пути, и мне нужна помощь в выяснении того, что я должен изучить, чтобы заставить это работать (например: какой инструмент машинного обучения я должен изучать?),