Использование Python 3.3. Я хочу сделать следующее:
- заменить специальные алфавитные символы, такие как e sharp (é) и o circumflex (ô) с базовым символом (например, от o до o)
- удалить все символы, кроме буквенно-цифровых и пробелы между буквенно-цифровыми символы
- конвертировать в нижний регистр
Это то, что у меня есть до сих пор:
mystring_modified = mystring.replace('\u00E9', 'e').replace('\u00F4', 'o').lower()
alphnumspace = re.compile(r"[^a-zA-Z\d\s]")
mystring_modified = alphnumspace.sub('', mystring_modified)
Как я могу улучшить это? Эффективность вызывает большую озабоченность, тем более что я выполняю операции внутри цикла:
# Pseudocode
for mystring in myfile:
mystring_modified = # operations described above
mylist.append(mystring_modified)
Файлы, о которых идет речь, составляют около 200 000 символов.