Использовать обратную связь или подкрепление в процессе машинного обучения?

Я пытаюсь решить некоторую проблему классификации. Кажется, многие классические подходы следуют аналогичной парадигме. То есть, подготовьте модель с некоторым набором тренировок, а затем используйте ее для прогнозирования ярлыков классов для новых экземпляров.

Мне интересно, можно ли ввести механизм обратной связи в парадигму. В теории управления введение петли обратной связи является эффективным способом повышения производительности системы.

В настоящее время прямой подход на мой взгляд заключается в том, что сначала мы начинаем с первоначального набора экземпляров и обучаем модель с ними. Затем каждый раз, когда модель делает неправильное предсказание, мы добавляем неверный экземпляр в обучающий набор. Это отличается от слепого увеличения учебного набора, поскольку он более нацеливается. Это можно рассматривать как некую отрицательную обратную связь на языке теории управления.

Проводится ли какое-либо исследование с использованием подхода обратной связи? Может ли кто-нибудь пролить свет?

Ответ 1

Есть две области исследований, которые spring должны учитывать.

Первое - Укрепление обучения. Это парадигма онлайн-обучения, которая позволяет вам получать обратную связь и обновлять свою политику (в этом случае, ваш классификатор), когда вы наблюдаете результаты.

Второе - активное обучение, где классификатор получает возможность выбирать примеры из пула неклассифицированных примеров для маркировки. Ключ состоит в том, чтобы классификатор выбирал примеры для маркировки, которые лучше всего повышают его точность, выбирая сложные примеры в рамках текущей гипотезы классификатора.

Ответ 2

Я использовал такую обратную связь для каждого проекта машинного обучения, над которым я работал. Это позволяет тренироваться на меньшем количестве данных (таким образом, обучение выполняется быстрее), чем случайным выбором данных. Точность модели также улучшается быстрее, чем при использовании случайно выбранных данных обучения. Я работаю над данными обработки изображений (компьютерное зрение), поэтому другой тип выбора, который я делаю, заключается в добавлении кластерных ложных (неправильных) данных вместо добавления всех ложных данных. Это потому, что я предполагаю, что у меня всегда будет некоторая ошибка, поэтому мое определение для положительных данных - это когда оно кластерно в той же области изображения.

Ответ 3

Я видел эту статью некоторое время назад, что, похоже, является тем, что вы ищете.

Они в основном моделируют проблемы классификации как процессы принятия решений Markov и решают с помощью Алгоритм ACLA. Документ гораздо более подробный, чем то, что я мог бы написать здесь, но в конечном итоге они получают результаты, превосходящие многоаспектный персептрон так что это выглядит довольно красиво эффективный метод.