Подтвердить что ты не робот

Почему Python не распознает исходный файл, закодированный utf-8?

Вот немного tmp.py с символом не ASCII:

if __name__ == "__main__":
    s = 'ß'
    print(s)

Запустив его, я получаю следующую ошибку:

Traceback (most recent call last):
  File ".\tmp.py", line 3, in <module>
    print(s)
  File "C:\Python32\lib\encodings\cp866.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xdf' in position 0: character maps to <undefined>

Документы Python говорит:

По умолчанию исходные файлы Python обрабатываются как кодированные в UTF-8...

Мой способ проверки кодировки - использовать Firefox (возможно, кто-то предложит что-то более очевидное). Я открываю tmp.py в Firefox, и если я выбираю View- > Character Encoding- > Unicode (UTF-8), он выглядит нормально, так он выглядит выше в этом вопросе (wth ß  символ).

Если я поставлю:

# -*- encoding: utf-8 -*-

как первая строка в tmp.py, она ничего не меняет - ошибка сохраняется.

Может ли кто-нибудь помочь мне разобраться, что я делаю неправильно?

4b9b3361

Ответ 1

Кодирование вашего терминала использует, не поддерживает этот символ:

>>> '\xdf'.encode('cp866')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/opt/local/Library/Frameworks/Python.framework/Versions/3.3/lib/python3.3/encodings/cp866.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character '\xdf' in position 0: character maps to <undefined>

Python обрабатывает его просто отлично, это ваша кодировка вывода, которая не может справиться с ней.

Вы можете попробовать использовать chcp 65001 в консоли Windows для переключения вашей кодовой страницы; chcp - команда командной строки Windows для изменения кодовых страниц.

Mine, на OS X (с использованием UTF-8) может справиться с этим просто:

>>> print('\xdf')
ß