Подтвердить что ты не робот

Все ли символы кандзи в UTF-8 3 байта?

Кто-нибудь может подтвердить, что все символы кандзи на китайском языке имеют длину 3 байта в UTF-8?

4b9b3361

Ответ 1

Обычно используемые символы Hanzi/Kanji находятся в блоке "Объединенные идеографы CJK" между U + 4E00 и U + 9FFF и принимают 3 байта в UTF-8. (Японские символы Хираганы и Катакана также занимают 3 байта.)

Тем не менее, есть также очень редко используемые символы в блоках CJK Unified Ideographs Extension B и "CJK Compatibility Ideograms Supplement", которые принимают 4 байта в UTF-8.

Также помните, что китайский текст часто содержит символы ASCII, такие как цифры 0-9.

Ответ 2

Да, Кандзи U + 4e00 - U + 9faf, UTF8 3 байта U + 0800 - U + FFFF.