У меня есть серия текстового items- необработанного HTML из базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственную наиболее распространенную фразу, и в идеале, не приводя в соответствие слово в слово).
Мой пример - любой обзор на Yelp.com, который показывает 3 фрагмента из сотен отзывов о том или ином ресторане в формате:
"Попробуйте гамбургер" (в 44 отзывах)
например, раздел "Обзор основных моментов" этой страницы:
http://www.yelp.com/biz/sushi-gen-los-angeles/
У меня установлен NLTK, и я немного поигрался с ним, но, честно говоря, перегружен опциями. Это кажется довольно распространенной проблемой, и я не смог найти прямого решения, выполнив поиск здесь.