Подтвердить что ты не робот

Имена файлов Python os.stat и unicode

В моем приложении Django пользователь загрузил файл с символом юникода в имени.

Когда я загружаю файлы, я вызываю:

os.path.exists(media)

проверить, что файл есть. Это, в свою очередь, похоже на

st = os.stat(path)

Которая затем взрывается с ошибкой:

UnicodeEncodeError: кодек ascii не может кодировать символ u '\ xcf' в позиции 92: порядковый номер не в диапазоне (128)

Что я могу сделать по этому поводу? Есть ли способ path.exists для его обработки?

Обновление: на самом деле все, что мне нужно было сделать, это кодировать аргумент как существующий, т.е.

os.path.exists(media.encode('utf-8')

Спасибо всем, кто ответил.

4b9b3361

Ответ 1

Я предполагаю, что вы в Unix. Если нет, не забудьте указать, в какой ОС вы находитесь.

Убедитесь, что ваш язык установлен в UTF-8. Все современные Linux-системы делают это по умолчанию, обычно устанавливая переменную среды LANG на "en_US.UTF-8" или на другой язык. Кроме того, убедитесь, что ваши имена файлов закодированы в UTF-8.

С этим набором нет необходимости связываться с кодировками для доступа к файлам на любом языке, даже в Python 2.x.

[~/test] echo $LANG
en_US.UTF-8
[~/test] echo testing > 漢字
[~/test] python2.6
Python 2.6.2 (release26-maint, Apr 19 2009, 01:56:41)
[GCC 4.3.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> os.stat("漢字")
posix.stat_result(st_mode=33188, st_ino=548583333L, st_dev=2049L, st_nlink=1, st_uid=1000, st_gid=1000, st_size=8L, st_atime=1263634240, st_mtime=1263634230, st_ctime=1263634230)
>>> os.stat(u"漢字")
posix.stat_result(st_mode=33188, st_ino=548583333L, st_dev=2049L, st_nlink=1, st_uid=1000, st_gid=1000, st_size=8L, st_atime=1263634240, st_mtime=1263634230, st_ctime=1263634230)
>>> open("漢字").read()
'testing\n'
>>> open(u"漢字").read()
'testing\n'

Если это не работает, запустите "locale"; если значения "C" вместо en_US.UTF-8, возможно, у вас не установлен языковой стандарт.

Если вы работаете в Windows, я думаю, что имена файлов Unicode должны всегда работать (по крайней мере, для модулей os/posix), так как API файлов Unicode в Windows поддерживается прозрачно.

Ответ 2

Кодировать кодировку файловой системы перед вызовом. См. Модуль locale.

Ответ 3

Ни один из этих решений не работал у меня. Однако я нашел решение (a?). В настройках Apache есть еще одно место, где нужно добавить параметр локали, если вы используете WSGI. Официальные документы здесь. Добавьте следующие две строки в /etc/apache2/envvars (на Ubuntu):

export LANG='en_US.UTF-8'
export LC_ALL='en_US.UTF-8'

Затем перезапустите сервер. Это решило мою проблему.

Ответ 4

Измените свой http-сервер, чтобы использовать локаль UTF-8. Например, я использую apache2 для CentOS. Я изменил /local/etc/sysconfig/httpd locale на HTTPD_LANG:

# CentOS use /etc/sysconfig/httpd to config environment variables.
#
# By default, the httpd process is started in the C locale; to
# change the locale in which the server runs, the HTTPD_LANG
# variable can be set.
#
# HTTPD_LANG=C
HTTPD_LANG=en_US.UTF-8  # you can change to your locale.

Ответ 5

Легко получить такую ​​ошибку при запуске службы (например, gunicorn) из Upstart.

Чтобы исправить это, установите env в файл upstart:

env LANG=en_US.UTF-8
env LC_CTYPE=en_US.UTF-8
env LC_ALL=en_US.UTF-8