Я пытаюсь извлечь все вхождения помеченных слов из строки с использованием regex в Python 2.7.2. Или просто, я хочу извлечь каждую часть текста внутри тегов [p][/p]
.
Вот моя попытка:
regex = ur"[\u005B1P\u005D.+?\u005B\u002FP\u005D]+?"
line = "President [P] Barack Obama [/P] met Microsoft founder [P] Bill Gates [/P], yesterday."
person = re.findall(pattern, line)
Печать person
создает ['President [P]', '[/P]', '[P] Bill Gates [/P]']
Какое правильное регулярное выражение получится: ['[P] Barack Obama [/P]', '[P] Bill Gates [/p]']
или ['Barrack Obama', 'Bill Gates']
.
Спасибо.:)