Мой вопрос: как подготовить классификатор только с положительными и нейтральными данными?
Я создаю персонализированную систему рекомендаций для образовательных целей. Данные, которые я использую, - это Instapaper.
Datasets
У меня есть только положительные данные: - Статьи, которые я прочитал и "понравился", независимо от прочитанного/непрочитанного статуса
И нейтральные данные (потому что я проявил к нему интерес, но мне может и не понравиться позже): - Статьи, которые непрочитаны - Статьи, которые я прочитал и отметил как прочитанные, но я не "понравился" ему
Данные, которые у меня отсутствуют, - это отрицательные данные: - Статьи, которые я не отправил Instapaper, чтобы прочитать его позже (мне неинтересно, хотя я просмотрел эту страницу/статью) - Статьи, которые я, возможно, даже не нажал, но у меня может быть или нет архива.
Моя проблема
В такой проблеме отрицательные данные в основном отсутствуют. Я подумал о следующих решениях, но еще не решил их:
1) Подайте в классификатор ряд отрицательных данных Плюсы: Немедленные отрицательные данные для обучения классификатору Минусы: по мере того, как количество статей, которые мне нравятся, увеличивается, отрицательный эффект данных на классификаторе уменьшается
2) Поверните "нейтральные" данные в отрицательные данные Плюсы: Теперь у меня есть все положительные и (новые) отрицательные данные, которые мне нужны Минусы: Несмотря на то, что нейтральные данные имеют для меня небольшой интерес, мне все равно хотелось бы получить рекомендации по такой статье, но, возможно, как менее ценный класс.