Python urlparse.parse_qs unicode url - программирование
Подтвердить что ты не робот

Python urlparse.parse_qs unicode url

urlparse.parse_qs полезен для анализа параметров URL-адреса, и он отлично работает с простым URL-адресом ASCII, представленным str. Поэтому я могу разобрать запрос и затем построить тот же путь, используя urllib.urlencode из проанализированных данных:

>>> import urlparse
>>> import urllib
>>>
>>> path = '/?key=value' #path is str
>>> query = urlparse.urlparse(path).query
>>> query
'key=value'
>>> query_dict = urlparse.parse_qs(query)
>>> query_dict
{'key': ['value']}
>>> '/?' + urllib.urlencode(query_dict, doseq=True)
'/?key=value' # <-- path is the same here

Он также отлично работает, когда url содержит процент закодированных параметров, отличных от ASCII:

>>> value = urllib.quote(u'значение'.encode('utf8'))
>>> value
'%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5'
>>> path = '/?key=%s' % value
>>> path
'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5'
>>> query = urlparse.urlparse(path).query
>>> query
'key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5'
>>> query_dict = urlparse.parse_qs(query)
>>> query_dict
{'key': ['\xd0\xb7\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5']}

>>> '/?' + urllib.urlencode(query_dict, doseq=True)
'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5'  # <-- path is the same here

Но при использовании django я получаю url используя request.get_full_path(), и он возвращает путь как unicode string:

>>> path = request.get_full_path()
>>> path
u'/?key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5' # path is unicode

Посмотрите, что будет теперь:

>>> query = urlparse.urlparse(path).query
>>> query
u'key=%D0%B7%D0%BD%D0%B0%D1%87%D0%B5%D0%BD%D0%B8%D0%B5'
>>> query_dict = urlparse.parse_qs(query)
>>> query_dict
{u'key': [u'\xd0\xb7\xd0\xbd\xd0\xb0\xd1\x87\xd0\xb5\xd0\xbd\xd0\xb8\xd0\xb5']}
>>>

query_dict содержит строку unicode, содержащую байты! Не unicode точки! И, конечно, у меня есть UnicodeEncodeError при попытке urlencode этой строки:

>>> urllib.urlencode(query_dict, doseq=True)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:\Python27\Lib\urllib.py", line 1337, in urlencode
    l.append(k + '=' + quote_plus(str(elt)))
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-15: ordinal not in range(128)

В настоящее время у меня есть решение:

# just convert path, returned by request.get_full_path(), to `str` explicitly:
path = str(request.get_full_path())

Итак, вопросы:

  • почему parse_qs возвращает такую ​​странную строку (unicode, которая содержит байты)?
  • Безопасно ли конвертировать url в str?
4b9b3361

Ответ 1

Кодировать обратно до байтов перед передачей его в .parse_qs(), используя ASCII:

query_dict = urlparse.parse_qs(query.encode('ASCII'))

Это делает то же самое, что и str(), но с явным кодированием. Да, это безопасно, кодировка URL использует только кодовые точки ASCII.

parse_qs было передано значение Unicode, поэтому оно также присвоило значение unicode; это не задача декодирования байтов.