Подтвердить что ты не робот

Табличные символы с диакритикой в ​​R

Я пытаюсь вставлять строки (символы) в строку, но диакритические символы вставляются в виде символов самостоятельно. В идеале, у меня есть список слов в Международном фонетическом алфавите с достаточным количеством диакритических знаков и несколькими комбинациями из них с базовыми персонажами. Я даю здесь MWE всего одним словом, но то же самое касается списка слов и более типов комбинаций.

> word <- "n̥ana" # word constituted by 4 phones: [n̥],[a],[n],[a]
> table(strsplit(word, ""))
 ̥ a n 
1 2 2

Но желаемый результат:

a n n̥
2 1 1

Как мне получить такой результат?

4b9b3361

Ответ 1

Try

library(stringi)
table(stri_split_boundaries(word, type='character'))
#a n n̥ 
#2 1 1 

или

 table(strsplit(word, '(?<=\\P{Ll}|\\w)(?=\\w)', perl=TRUE))
 #a n  n̥ 
 #2 1 1