Я работаю с некоторыми действительно большими базами газетных статей, у меня есть их в базе данных MySQL, и я могу запросить их все.
Теперь я ищу способы помочь мне пометить эти статьи несколькими дескриптивными тегами.
Все эти статьи доступны из URL-адреса, который выглядит следующим образом:
http://web.site/CATEGORY/this-is-the-title-slug
Поэтому, по крайней мере, я могу использовать категорию для определения того, с каким типом контента мы работаем. Тем не менее, я также хочу пометить на основе статьи-текста.
Мой первоначальный подход делал это:
- Получить все статьи
- Получить все слова, удалить все знаки препинания, разделить по пробелам и посчитать их по вступлению
- Проанализируйте их и отфильтруйте общие не описательные слова, как "их", "я", "this", "эти", "их" и т.д.
- Когда все общие слова были отфильтрованы, осталось только слова, достойные метки.
Но это оказалось довольно ручной задачей, а не очень красивым или полезным подходом.
Это также страдает от проблемы слов или имен, разделенных пробелом, например, если 1.000 статей содержат имя "John Doe", а 1.000 статей содержат имя "John Hanson", я бы получил слово "Джон", а не его имя и фамилия.