Я пытаюсь изучить regex in R более глубоко. Я дал себе то, что, по моему мнению, было легкой задачей, которую я не могу понять. Я хочу извлечь все 4 буквы. В этих четырех буквенных словах я хочу игнорировать (не считать) апострофы. Я могу сделать это без регулярного выражения, но хочу использовать регулярное выражение. Здесь MWE и то, что я пробовал:
text.var <- "This Jon dogs' 'bout there in Mike re'y word."
pattern <- "\\b[A-Za-z]{4}\\b(?!')"
pattern <- "\\b[A-Za-z]{4}\\b|\\b[A-Za-z']{5}\\b"
regmatches(text.var, gregexpr(pattern, text.var, perl = TRUE))
** Требуемый вывод: **
[[1]]
[1] "This" "Jon's" "dogs'" "'bout" "word"
Я думал, что второй шаблон будет работать, но он захватывает слова, содержащие 5 символов.