Что такое "семантическая сегментация" по сравнению с "сегментацией" и "маркировкой сцены"?

Является ли семантическая сегментация просто плеонасом или есть разница между "семантической сегментацией" и "сегментацией"? Есть ли разница в "маркировке сцены" или "разборке сцены"?

В чем разница между пиксельной и пиксельной сегментацией?

(Боковой вопрос: если у вас есть такая аннотация для пикселов, вы получаете бесплатное обнаружение объекта или еще что-то делать?)

Пожалуйста, укажите источник своих определений.

Источники, которые используют "семантическую сегментацию"

Джонатан Лонг, Эван Шелхамер, Тревор Даррелл: Полностью сверточные сети для семантической сегментации. CVPR, 2015 и PAMI, 2016.
Hong, Seunghoon, Hyeonwoo Noh и Bohyung Han: "Развязанная глубокая нейронная сеть для полунаблюдения семантической сегментации". arXiv preprint arXiv: 1506.04924, 2015.
V. Лемпицкий, А. Ведалди и А. Зиссерман: модель пилонов для семантической сегментации. В Advances in Neural Information Processing Systems, 2011.

Источники, которые используют "маркировку сцены"

Клемент Фарабет, Камиль Купри, Лоран Найман, Янн ЛеКун: Изучение иерархических функций для маркировки сцен. В Analysis Analysis и Machine Intelligence, 2013.

Источник, который использует "уровень пикселя"

Пиньейро, Педро О. и Ронан Коллоберт: "От маркировки уровня изображения до пиксельного уровня с помощью сверточных сетей". Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2015 г. (см. http://arxiv.org/abs/1411.6228)

Источник, который использует "по пикселям"

Ли, Хуншэн, Руи Чжао и Сяоган Ван: "Высокоэффективное прямое и обратное распространение сверточных нейронных сетей для пиксельной классификации". arXiv preprint arXiv: 1412.4526, 2014.

Google Ngrams

"Семантическая сегментация" кажется более используемой в последнее время, чем "маркировка сцены"

Ответ 1

"сегментация" - это разбиение изображения на несколько "когерентных" частей, но без какой-либо попытки понять, что представляют эти части. Одна из самых известных работ (но определенно не первая) Ши и Малик "Нормализованные сокращения и сегментация изображений" PAMI 2000. Эти работы пытаются определить "согласованность" с точки зрения низкоуровневых сигналов, таких как цвет, текстура и гладкость границы. Вы можете отследить эти работы до гештальт-теории.

С другой стороны, "семантическая сегментация" пытается разбивать изображение на семантически значимые части и классифицировать каждую часть в один из предварительно определенных классов. Вы также можете достичь той же цели, классифицируя каждый пиксель (а не весь образ/сегмент). В этом случае вы выполняете поэтапную классификацию, что приводит к одному и тому же конечному результату, но немного по-другому...

Итак, я полагаю, вы можете сказать, что "семантическая сегментация", "маркировка сцены" и "классификация по пикселям" в основном пытаются достичь одной и той же цели: семантически понимать роль каждого пикселя в изображении. Вы можете взять много путей, чтобы достичь этой цели, и эти пути приводят к небольшим нюансам в терминологии.

Ответ 2

Я прочитал много статей об обнаружении объектов, распознавании объектов, сегментировании объектов, сегментации изображений и семантике семантического изображения, и здесь мои выводы могут быть неверными:

Распознавание объектов: в данном изображении вам необходимо обнаружить все объекты (ограниченный класс объектов зависит от вашего набора данных), Локализовать их с помощью ограничивающего прямоугольника и пометить этот ограничивающий прямоугольник меткой. В приведенном ниже изображении вы увидите простой результат распознавания объекта в современном состоянии.

Обнаружение объекта: оно похоже на распознавание объектов, но в этой задаче у вас есть только класс классификации объектов, который означает объекты, ограничивающие поля и неъектные ограничивающие поля. Например, обнаружение автомобиля: вам необходимо определить все автомобили в заданном изображении с их ограничивающими прямоугольниками.

Сегментация объектов. Подобно распознаванию объектов, вы распознаете все объекты в изображении, но ваш вывод должен показывать этот объект, классифицирующий пиксели изображения.

Сегментация изображения. В сегментировании изображения вы сегментируете области изображения. ваш результат не будет отмечать сегменты, а область изображения, которые соответствуют друг другу, должны находиться в одном сегменте. Извлечение суперэлементов из изображения является примером этой задачи или сегментации переднего плана.

Семантическая сегментация: в семантическом сегментировании вы должны пометить каждый пиксель классом объектов (Car, Person, Dog,...) и не объектов (Water, Sky, Road,...). Другими словами, в семантической сегментации вы будете отмечать каждую область изображения.

Я думаю, что пиксельная и пиксельная маркировка в основном та же самая, что и сегментация изображения или семантическая сегментация. Я также ответил на ваш вопрос в этой ссылке как таковой.

Ответ 3

Предыдущие ответы действительно замечательные, я хотел бы указать еще несколько дополнений:

Сегментация объектов

одна из причин, по которой это отклонилось от интереса в исследовательском сообществе, состоит в том, что это проблематично неопределенно. Сегментация объектов используется просто для того, чтобы найти одно или небольшое количество объектов в изображении и нарисовать границу вокруг них, и для большинства целей вы все же можете предположить, что это означает это. Тем не менее, он также стал использоваться для обозначения сегментации блобов, которые могут быть объектами, сегментацией объектов из фона (чаще всего называемой фоновой вычитанием или фоновой сегментацией или обнаружением переднего плана), и даже в некоторых случаях используются взаимозаменяемо с распознаванием объектов, используя (это быстро прекратилось с появлением глубоких нейронных сетевых подходов к распознаванию объектов, но раньше распознавание объектов также означало просто обозначение всего изображения с объектом в нем).

Что делает "сегментацию" "семантической"?

Simpy, каждый сегмент, или в случае глубоких методов каждого пикселя, получает метку класса, основанную на категории. Сегментация вообще - это просто разделение изображения по некоторому правилу. Meanshift, например, с очень высокого уровня делят данные в соответствии с изменениями энергии изображения. Разбивка графика на основе сегментации аналогично не изучена, а непосредственно получена из свойств каждого изображения отдельно от остальных. В более поздних (основанных на нейронных сетях) методах используются пиксели, которые помечены, чтобы узнать, какие локальные функции связаны с конкретными классами, а затем классифицировать каждый пиксель на основе того, какой класс имеет наибольшую уверенность в этом пикселе. Таким образом, "пиксельная маркировка" на самом деле является более честным именем для задачи, а компонент "сегментации" появляется.

Сегментация экземпляра

Возможно, самое сложное, актуальное и оригинальное значение сегментации объектов, "сегментация экземпляра" означает сегментацию отдельных объектов внутри сцены, независимо от того, являются ли они одного и того же типа. Однако одна из причин, почему это так сложно, состоит в том, что с точки зрения зрения (и в некотором смысле философской) то, что делает "объектный" экземпляр, не совсем ясен. Объекты частей тела? Должны ли такие "частичные объекты" вообще сегментироваться алгоритмом сегментации экземпляра? Должны ли они быть только сегментированы, если они видны отдельно от целого? Что же касается сложных объектов, то две вещи должны быть четко примыканы друг к другу, но отделяться друг от друга - это один или два камня (это скала, приклеенная к верхушке палки топором, молотом или просто палкой и скалой, если она не сделана должным образом?). Кроме того, неясно, как различать экземпляры. Является ли воля отдельным экземпляром с других стен, к которым он прикреплен? В каком порядке должны учитываться случаи? Как они появляются? Близость к точке зрения? Несмотря на эти трудности, сегментирование объектов по-прежнему является большой проблемой, потому что, поскольку люди все время взаимодействуют с объектами независимо от их "метки класса" (используя случайные объекты вокруг вас как бумажные весы, сидящие на вещах, которые не являются стульями) и поэтому некоторые данные пытаются попытаться решить эту проблему, но главная причина, по которой проблема не так много, связана с тем, что она недостаточно хорошо определена.

Обозначение сцены/обозначение сцены

Разбор сценариев - это строго сегментированный подход к маркировке сцены, который также имеет некоторые проблемы неопределенности. Исторически, маркировка сцены означала разделить всю "сцену" (изображение) на сегменты и дать им все метки класса. Однако он также использовался для обозначения ярлыков классов для областей изображения без явной их сегментации. Что касается сегментации, "семантическая сегментация" не означает деления всей сцены. Для семантической сегментации алгоритм предназначен для сегментации только объектов, которые он знает, и будет наказываться функцией потерь для маркировки пикселей, которые не имеют метки. Например, набор данных MS-COCO является набором данных для семантической сегментации, где сегментируются только некоторые объекты.