Может кто-нибудь мне помочь с регулярными выражениями? В настоящее время у меня есть это: re.split(" +", line.rstrip()), который разделяет пробелы.
Как я могу развернуть это, чтобы также отметить пунктуацию?
Ответ 1
Официальная документация на Python имеет хороший пример для этого. Он будет разбит на все не буквенно-цифровые символы (пробелы и знаки препинания). Буквально \W является символьным классом для всех символов, отличных от Word. Примечание: символ подчеркивания "_" считается символом "слово" и не будет частью этого раздела.
На всякий случай, похоже, что вы можете выполнить простой синтаксический анализ, который может быть покрыт shlex, из документации:
"Класс shlex позволяет легко писать лексические анализаторы для простых синтаксисы, похожие на синтаксис оболочки Unix. Это часто будет полезно для записи миниязыков (например, в файлах управления запуском для Python) или для синтаксического анализа цитируемых строк.