Рассмотрим следующий обмен на IPython:
In [1]: s = u'華袞與緼𦅷同歸'
In [2]: len(s)
Out[2]: 8
Правильный вывод должен был быть 7
, но поскольку пятый из этих семи китайских символов имеет высокую кодовую точку Юникода, он представлен в UTF-8 "суррогатной парой", а не только одним простым кодовым пунктом, и в результате Python считает, что это два символа, а не один.
Даже если я использую unicodedata
, который правильно возвращает суррогатную пару в виде одного кодового пункта (\U00026177
), при передаче в len()
возвращается неправильная длина:
In [3]: import unicodedata
In [4]: unicodedata.normalize('NFC', s)
Out[4]: u'\u83ef\u889e\u8207\u7dfc\U00026177\u540c\u6b78'
In [5]: len(unicodedata.normalize('NFC', s))
Out[5]: 8
Не предпринимая таких решительных шагов, как перекомпиляция Python для UTF-32, есть ли простой способ получить правильную длину в таких ситуациях?
Я нахожусь на IPython 0.13, Python 2.7.2, Mac OS 10.8.2.