У меня есть около 100 мегабайт текста без какой-либо разметки, разделенной примерно на 10 000 записей. Я хотел бы автоматически генерировать список тегов. Проблема в том, что существуют группы слов (т.е. Фразы), которые имеют смысл только тогда, когда они сгруппированы вместе.
Если я просто пересчитываю слова, я получаю большое количество действительно общих слов (есть, для, для, в, и т.д.). Я подсчитал слова и количество других слов, которые были до и после него, но теперь я действительно не могу понять, что делать дальше. Информация, относящаяся к 2 и 3 фразам, присутствует, но как я могу извлечь эти данные?