Какой дескриптор следует использовать для обнаружения тюленей?

У меня есть проект для обнаружения и подсчета тюленей (животного) в аэрофотоснимке, который берется с пляжа. Плоды тюленя черные и маленькие по сравнению с взрослыми тюленями, которые являются коричневыми и крупными.

Некоторые тюлени-тюлени перекрываются/частично закупорены. Цвет пляжа близок к желтому, но есть некоторые черные камни, которые увеличивают сложность обнаружения.

Какой дескриптор наиболее подходит для моего проекта? HOG, SIFT, Haar-подобные функции?

Я прошу теорию часть этой проблемы. Я думаю, что для реализации моего проекта первым шагом должен быть выбор правильного дескриптора, который может наиболее представлять объект, тогда (объединить несколько слабых функций, не обязательно?) Обучать классификатор с использованием метода машинного обучения, например boosting/SVM/neural_network, я прав?

Пример изображения:

Ответ 1

Я не уверен, что согласен, что выбор правильного дескриптора - это правильное место для начала. Основная проблема заключается в том, что все объекты схожи по форме. В каждом животном также имеются значительные градиенты. Еще одна проблема - сложность поз. Я бы разбил проблему на два более простых шага: 1. Уникальное обнаружение объекта (обнаружение края, водораздел, сокращение графика и т.д.). Что-то вроде проблемы "кровяных клеток". 2. Классификация объектов, основанная на цвете и области (с точки зрения камеры). Вычислите дробное количество "желтых" цветных пикселей и "черных" цветных пикселей в каждом объекте и используйте эти значения вместе с размером объекта в качестве входов в классификатор объектов (нейронные сети - это веселое решение здесь!).

Это довольно захламленная сцена, поэтому я ожидал бы, что оба этих алгоритма потребуют некоторой тонкой настройки. Если ваши требования позволяют некоторым образом взаимодействовать с аналитиком, обеспечьте некоторые слайдеры, чтобы аналитик мог настроить каждый из порогов в ваших алгоритмах.

Ответ 2

Точность алгоритмов компьютерного зрения, по-видимому, в значительной степени зависит от возможности тонкой настройки их на конкретную проблему. Если вы можете сделать предположения об изображениях, которые вы передаете вашему алгоритму, например, тот факт, что все они представляют собой воздушные изображения тюленей на аналогичной пляжной сцене, тогда вы можете воспользоваться этим. Я бы сказал, прежде чем пытаться слишком увлекаться локальными особенностями, вы можете попробовать что-то вроде сегментации водоразделов и подсчитать количество нефоновых сегментов. Watershed обеспечивает удобную структуру под названием "маркеры" для включения в нее предварительных знаний о ваших входных данных, чтобы различать сегменты "фон" и "передний план".

Такой подход может быть проще и, возможно, более точным, чем локальные функции. По моему опыту, я не смог извлечь и сопоставить множество значимых функций из органического предмета (например, лица или животных) с использованием функций SIFT и SURF. Для меня они имели тенденцию работать лучше на фотографиях комнат или зданий с большим количеством углов.

Ответ 3

Не совсем уверен, вы могли бы попытаться взглянуть на алгоритм хищника, так как вы могли бы научить его, как легко выглядит детское уплотнение. видео youtube, описание и ссылка здесь