String.translate() с данными unicode в python

У меня есть 3 API, которые возвращают данные json в 3 словарных переменных. Я беру некоторые значения из словаря для их обработки. Я прочитал конкретные значения, которые я хочу в списке valuelist. Одним из шагов является удаление знаков препинания. Обычно я использую string.translate(None, string.punctuation) для этого процесса, но поскольку данные словаря являются unicode, я получаю ошибку:

    wordlist = [s.translate(None, string.punctuation)for s in valuelist]
TypeError: translate() takes exactly one argument (2 given)

Есть ли способ обойти это? Либо путем кодирования Unicode, либо замены для string.translate?

Ответ 1

Метод перевода выполняется по-разному для объектов Unicode, чем для объектов с байтовой строкой:

>>> help(unicode.translate)

S.translate(table) -> unicode

Return a copy of the string S, where all characters have been mapped
through the given translation table, which must be a mapping of
Unicode ordinals to Unicode ordinals, Unicode strings or None.
Unmapped characters are left untouched. Characters mapped to None
are deleted.

Таким образом, ваш пример станет следующим:

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
word_list = [s.translate(remove_punctuation_map) for s in value_list]

Обратите внимание, что string.punctuation содержит только знаки ASCII. Полный Unicode имеет много других символов пунктуации, но все зависит от вашего варианта использования.

Ответ 2

Я заметил, что string.translate устарел. Поскольку вы удаляете пунктуацию, а не переводя символы, вы можете использовать функцию re.sub.

    >>> import re

    >>> s1="this.is a.string, with; (punctuation)."
    >>> s1
    'this.is a.string, with; (punctuation).'
    >>> re.sub("[\.\t\,\:;\(\)\.]", "", s1, 0, 0)
    'thisis astring with punctuation'
    >>>

Ответ 3

В этой версии вы можете сделать одну букву с другим

def trans(to_translate):
    tabin = u'привет'
    tabout = u'тевирп'
    tabin = [ord(char) for char in tabin]
    translate_table = dict(zip(tabin, tabout))
    return to_translate.translate(translate_table)

Ответ 4

Модуль Python re позволяет использовать функцию в качестве аргумента замены, которая должна принимать объект Match и возвращать подходящую замену, Мы можем использовать эту функцию для создания пользовательской функции перевода символов:

import re

def mk_replacer(oldchars, newchars):
    """A function to build a replacement function"""
    mapping = dict(zip(oldchars, newchars))
    def replacer(match):
        """A replacement function to pass to re.sub()"""
        return mapping.get(match.group(0), "")
    return replacer

Пример. Сопоставьте все строчные буквы ([a-z]), переведите "h" и "i" в "H" и "I" соответственно, удалите другие совпадения:

>>> re.sub("[a-z]", mk_replacer("hi", "HI"), "hail")
'HI'

Как вы можете видеть, его можно использовать с короткими (незавершенными) наборами замены, и его можно использовать для удаления некоторых символов.

Пример Unicode:

>>> re.sub("[\W]", mk_replacer(u'\u0435\u0438\u043f\u0440\u0442\u0432', u"EIPRTV"), u'\u043f\u0440\u0438\u0432\u0435\u0442')
u'PRIVET'

Ответ 5

Когда я наткнулся на ту же проблему, и ответ Саймона был тем, который помог мне решить мое дело, я подумал о том, чтобы показать более простой пример только для разъяснения:

from collections import defaultdict

И затем для перевода, скажем, вы хотите удалить символы "@" и "\ r":

remove_chars_map = defaultdict()
remove_chars_map['@'] = None
remove_chars_map['\r'] = None

new_string = old_string.translate(remove_chars_map)

И пример:

old_string = "word1 @\r word2 @\r word3 @\r"

new_string = "word1 word2 word3"

'@' и '\ r' удалены