Какой алгоритм используется для поиска ngrams?
Предположим, что мои входные данные - это массив слов и размер ngrams, которые я хочу найти, какой алгоритм я должен использовать?
Я прошу код с предпочтением R. Данные хранятся в базе данных, поэтому также может быть функцией plgpsql. Java - это язык, который я знаю лучше, поэтому я могу "перевести" его на другой язык.
Я не ленив, я прошу только код, потому что я не хочу изобретать колесо, пытаясь выполнить уже выполненный алгоритм.
Изменить: важно знать, сколько раз появляется каждый n-грамм.
Изменить 2: есть R-пакет для N-GRAMS?