Я пишу программу подсчета слов Python MapReduce. Проблема в том, что в данных много символов алфавита, я нашел это сообщение Удаление всего, кроме буквенно-цифровых символов из строки в Python, которая показывает хорошее решение используя regex, но я не уверен, как его реализовать
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
Я боюсь, что не знаю, как использовать библиотеку re
или даже регулярное выражение. Я не уверен, как правильно применить шаблон регулярного выражения к входящей строке (строке книги) v
, чтобы получить новую строку без каких-либо букв без буквенно-цифровых символов.
Предложения?