В чем разница между помеченными и немаркированными данными?

В этом видео из Sebastian Thrum он говорит, что контролируемое обучение работает с "помеченными" данными и неконтролируемыми учебными работами с "немечеными" данными. Что он имеет в виду под этим? Googling "с меткой против немеченых данных" возвращает кучу научных статей по этой теме. Я просто хочу знать основную разницу.

Ответ 1

Как правило, данные без маркировки состоят из образцов естественных или созданных человеком артефактов, которые вы можете получить относительно легко из мира. Некоторые примеры немаркированных данных могут включать в себя фотографии, аудиозаписи, видеоролики, новостные статьи, твиты, рентгеновские снимки (если вы работали над медицинским приложением) и т.д. Для каждого фрагмента немеченых данных нет "объяснений" - это просто содержит данные, и ничего больше.

Данные с меткой обычно берут набор немаркированных данных и дополняют каждую часть этих немаркированных данных каким-то значимым "тегом", "меткой" или "классом", который является каким-то информативным или желательным знать. Например, метки для вышеуказанных типов немеченых данных могут заключаться в том, содержит ли эта фотография лошадь или корова, какие слова были произнесены в этой аудиозаписи, какие действия выполняются в этом видеоролике, какова тема этой новостной статьи есть, каково общее чувство этого твита, является ли точка в этом рентгене опухолью и т.д.

Ярлыки для данных часто получают, прося людей судить о данной части немеченых данных (например, "Имеет ли эта фотография лошадь или корова?" ) и значительно дороже получить, чем необработанные немеченые данные.

После получения помеченного набора данных модели данных машинного обучения могут быть применены к данным, так что новые немаркированные данные могут быть представлены модели, и вероятная метка может быть угадана или предсказана для этой части немеченых данных.

Существует множество областей исследований в области машинного обучения, которые направлены на интеграцию немаркированных и помеченных данных для построения лучших и более точных моделей мира. Полу-контролируемое обучение пытается объединить немаркированные и помеченные данные (или, в более общем смысле, наборы немеченых данных, где только некоторые точки данных имеют метки), в интегрированные модели. Глубокие нейронные сети и изучение функций - это области исследований, которые пытаются самостоятельно создавать модели немаркированных данных, а затем применять информацию от ярлыков к интересным частям моделей.

Ответ 2

В механическом обучении есть много разных проблем, поэтому я буду рассматривать классификацию в качестве примера. В классификации помеченные данные обычно состоят из пакета многомерных векторов признаков (обычно называемых X), а для каждого вектора - меткой Y, которая часто является целым числом, соответствующим категории, например. (лицо = 1, не-лицо = -1). Незамеченные данные пропускают компонент Y. Существует много сценариев, где немаркированные данные многочисленны и легко получены, но помеченные данные часто требуют аннотации человека/эксперта.

Ответ 3

Помеченные данные, используемые контролируемым обучением, добавляют значимые теги или метки или класс к наблюдениям (или строкам). Эти теги могут быть получены из наблюдений или опроса людей или специалистов о данных.

Классификация и регрессия может применяться к помеченным наборам данных для контролируемого обучения.

Модели машинного обучения могут применяться к помеченным данным, так что новые немеченые данные могут быть представлены в модель, а вероятная метка может быть угадана или предсказана.

Данные без меток, используемые неконтролируемым обучением , однако не имеют никаких значимых тегов или меток, связанных с ними. У обучения без присмотра есть более сложные алгоритмы, чем у обучения с надзором, поскольку мы практически ничего не знаем о данных или ожидаемых результатах.

Кластеризация считается одной из самых популярных неконтролируемых технологий машинного обучения, используемых для группировки точек данных или объектов, которые чем-то похожи.

В обучении без учителя используется меньше моделей и меньше методов оценки, которые можно использовать для обеспечения точности результатов модели. Таким образом, неконтролируемое обучение создает менее контролируемую среду, поскольку машина создает результаты для нас.

Изображение предоставлено Coursera: Машинное обучение с Python