Я хочу создать веб-приложение, которое позволяет пользователям загружать документы, видео, изображения, музыку, а затем давать им возможность искать их. Подумайте об этом как Dropbox + Semantic Search.
Когда пользователь загружает новый файл, например. Document1.docx, как я могу автоматически генерировать теги на основе содержимого файла? Другими словами, пользовательский ввод не требуется для определения того, что представляет собой файл. Если предположим, что Document1.docx является исследовательским документом по интеллектуальному анализу данных, тогда, когда пользователь ищет интеллектуальный анализ данных или исследовательский документ или документ1, этот файл должен быть возвращен в результатах поиска, поскольку интеллектуальный анализ данных и исследование бумага, скорее всего, будет потенциально автоматически сгенерированными тегами для данного документа.
1. Какие алгоритмы вы порекомендовали бы для этой проблемы?
2. Есть ли библиотека естественного языка, которая могла бы сделать это для меня?
3. Какие методы машинного обучения я должен изучить, чтобы улучшить точность маркировки?
4. Как я могу распространить это на автоматическую пометку видео и изображений?
Спасибо заранее!