Подтвердить что ты не робот

Преобразование с упрощенного на традиционный китайский

Если сайт локализован/интернационализирован с помощью упрощенного китайского перевода...

  • Можно ли надежно автоматически конвертировать текст в Традиционные китайцы в высоком качестве способ?
  • Если да, то это будет исключительно высокое качество или просто хорошая отправная точка для настройки переводчика?
  • Есть ли инструменты с открытым исходным кодом (в идеале на PHP), чтобы сделать такое преобразование?
  • Является ли преобразование лучше одним способом против другого (упрощенный → традиционный или наоборот)?
4b9b3361

Ответ 1

Короткий ответ: Нет, не надежно + высокое качество. Я бы не рекомендовал автоматические инструменты, если рынок не так важен для вас, и вы можете рисковать определенными публично смущающими цветами. Вы можете обнаружить, что некоторые локализационные фирмы более счастливы начать с качественного упрощенного перевода на китайский язык и адаптировать его к традиционным, но вы также можете обнаружить, что многие компании предпочитают начинать с английского источника.

Более длинный ответ: есть случаи, когда только глифы разные, и у них разные кодовые точки юникода. Но есть и некоторые идиоматические и лексические различия между КНР и Тайванем/Гонконге, и ваше качество будет страдать, если они не будут обработаны. Технические термины могут быть более проблематичными или менее, в зависимости от эпохи, в которой термины стали широко использоваться. Некоторые из этих проблем могут быть застигнуты автоматическими инструментами, но не все из них. Конечно, если вы идете по пути автоматического преобразования вещей, убедитесь, что вы получаете выкуп из команд QA на каждом из ваших целевых рынков.

Кроме того, есть общественно-политические проблемы. Например, вы можете использовать такие термины, как "Республика Китай" на Тайване, но это будет круто расшатывать китайское правительство, если оно появится в вашей упрощенной китайской версии (а иногда и на вашей английской версии); если у вас есть фактическое дочернее предприятие или партнер в Китае, персонал может быть арестован исключительно на основе подрывной терминологии. (Это не уникально для Китая, у Пакистана/Индии и Турции есть аналогичные проблемы). Вы можете столкнуться с подобной проблемой, указав "Тайвань" как "страну".

Ответ 2

Как сам родной Гонконгер, я согласен с @JasonTrue: не делайте этого. Вы рискуете злить и оскорбить своих потенциальных пользователей на Тайване и в Гонконге.

НО, если вы все еще настаиваете на этом, посмотрите как это делает Wikipedia; здесь - это одна реализация (лицензия на заметку).

Ответ 3

Можно ли надежно автоматически преобразовать текст в традиционный китайский язык с высоким качеством?

Другие ответы сосредоточены на трудностях, но они преувеличены. Одно дело, что значительная часть персонажей точно такая же. Во-вторых, "упрощенные" формы в точности таковы: упрощенные формы традиционных символов. Это означает, что между традиционными и упрощенными символами существует от 1 до 1.

Если да, то это будет чрезвычайно высокое качество или просто хорошая отправная точка для перевода переводчика?

Некоторые вещи нуждаются в настройке.

Есть ли инструменты с открытым исходным кодом (идеально в PHP) для такого преобразования?

Не то, что я знаю, хотя вы можете проверить google translate api?

Является ли преобразование лучше одним способом против другого (упрощенный → традиционный или наоборот)?

Несколько символов потеряли различие в упрощенном алфавите. Например, 麵 (мука) была упрощена до того же символа, что и 面 (лицо, сторона). По этой причине традиционное упрощение было бы несколько более точным.

Я также хотел бы отметить, что традиционные символы используются не только на Тайване (их можно найти в HK, а иногда и на материке)


Я смог найти this и this. Однако нужно создать учетную запись для загрузки. Никогда не использовал сайт самостоятельно, поэтому я не могу ручаться за него.

Ответ 4

По сути, упрощенные китайские слова имеют много недостающих значений. Никакой язык программирования в мире не сможет точно преобразовать упрощенный китайский язык в традиционный китайский. Вы просто вызовите путаницу для своей целевой аудитории (Гонконг, Макао, Тайвань).

Прекрасным примером неудачного перевода с упрощенного китайского на традиционный китайский является слово "后". В упрощенной форме он имеет два значения: "за" или "королева". Однако, если вы попытаетесь преобразовать это обратно в традиционный китайский, может быть более двух символов: 後 "за" или "королева". Один забавный пример, с которым я столкнулся, - это переводчик, который превратил "皇后 大道" Queen Road в "皇後 大道", что буквально означает Queen Behind Road.

Если ваш алгоритм перевода не является супер-умным, он должен создавать ошибки. Так что вам лучше нанять очень хорошего переводчика, который свободно говорит на обоих типах китайцев.

Ответ 5

Я ничего не знаю о какой-либо форме китайца, но посмотрев примеры в на этой странице в Википедии Я склонен думать, что автоматическое преобразование возможно, так как многие фразы, похоже, используют одинаковое количество символов и даже некоторые из тех же символов.

Я провел быстрый тест с использованием многобайтовой функции ord(), и я не вижу никаких шаблонов, которые позволяли бы автоматическое преобразование без использование таблицы преобразования (огромного?) поиска.

Traditional Chinese 漢字
Simplified Chinese  汉字

function mb_ord($string)
{
    if (is_array($result = unpack('N', iconv('UTF-8', 'UCS-4BE', $string))) === true)
    {
        return $result[1];
    }

    return false;
}

var_dump(mb_ord('漢'), mb_ord('字')); // 28450, 23383
var_dump(mb_ord('汉'), mb_ord('字')); // 27721, 23383

Это может быть хорошим местом для создания LUTT:

Я получил этот другой связанный ответ, который, кажется, согласен (до некоторой степени) с моими рассуждениями:

Есть несколько стран, где Китайский язык является основным письменным языком. Основное различие между ними пользуются ли они упрощенными или традиционные символы, , но есть также незначительные региональные различия (в словарный запас и т.д.).

Ответ 6

Короткий ответ: Да. И это легко. Вы можете сначала преобразовать его из UTF-8 в BIG5, тогда есть много инструментов для конвертирования BIG5 в GBK, тогда вы можете конвертировать GBK в UTF-8.