Что такое кодировка китайских символов в Википедии?

Я смотрел на кодировку китайских иероглифов в Википедии, и мне трудно понять, что они используют. Например, "的" кодируется как "% E7% 9A% 84" (см. Здесь). Эти три байта, однако ни одна из кодировок, описанных на этой странице, использует три байта для представления китайских символов. Например, UTF-8 использует 2 байта.

В основном я пытаюсь сопоставить эти три байта с фактическим символом. Любое предложение о том, как это кодировать?

Ответ 1


>>> c='\xe7\x9a\x84'.decode('utf8')
>>> c
u'\u7684'
>>> print c
的

хотя Unicode кодирует его в 16 бит, utf8 разбивает его на 3 байта.

Ответ 2

Заголовок страницы wikipedia включает в себя следующее:

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

Таким образом, страница UTF-8.

Ответ 3

Пример, который вы даете, это IRI.

В IRI используется кодировка UTF8. UTF8 реализует unicode, а в юникоде каждый символ имеет код, который находится между 0x4E00 и 0x9FFF (2 байта) для всех китайских символов.

Но UTF8 не кодирует символы, просто сохраняя их код (UTF32 делает это). Вместо этого он использует более сложный стандарт, который заставляет все китайские идеограммы длиной 2 или 3.