У меня огромные текстовые данные. Вся моя база данных - это текстовый формат в UTF-8
Мне нужно иметь список самых повторяющихся фраз для всех моих текстовых данных.
Например, мое желание выводит что-то вроде этого:
{
'a': 423412341,
'this': 423412341,
'is': 322472341,
'this is': 222472341,
'this is a': 122472341,
'this is a my': 5235634
}
Обработать и сохранить каждую фразу за большой размер базы данных. Например, хранить в MySQL или MongoDB. Вопрос: есть ли более эффективная база данных или алгорифм для поиска этого результата? Solr, Elasticsearch и т.д.
Я думаю, что у меня не более 10 слов в каждой фразе может быть хорошо для меня.