Подтвердить что ты не робот

Печать кодированной строки utf-8

Я использую BeautifulSoup для извлечения некоторого текста из HTML, но я просто не могу понять, как правильно его печатать на экране (или в файле, если на то пошло).

Вот как выглядит мой класс, содержащий текст:

class Thread(object):
    def __init__(self, title, author, date, content = u""):
        self.title = title
        self.author = author
        self.date = date
        self.content = content
        self.replies = []

    def __unicode__(self):
        s = u""

        for k, v in self.__dict__.items():
            s += u"%s = %s " % (k, v)

        return s

    def __repr__(self):
        return repr(unicode(self))

    __str__ = __repr__

При попытке распечатать экземпляр Thread здесь, что я вижу на консоли:

~/python-tests $ python test.py
u'date = 21:01 03/02/11 content =  author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '

Что бы я ни старался, я не могу получить вывод, который я хотел бы (приведенный выше текст должен быть ивритом). Моя конечная цель - сериализовать Thread в файл (используя json или pickle) и иметь возможность прочитать его.

Я запускаю это с Python 2.6.6 на Ubuntu 10.10.

4b9b3361

Ответ 1

Чтобы вывести строку Unicode в файл (или консоль), вам нужно выбрать текстовую кодировку. В Python стандартная текстовая кодировка - ASCII, но для поддержки ивритских символов вам нужно использовать другую кодировку, такую ​​как UTF-8:

s = unicode(your_object).encode('utf8')
f.write(s)