Гистограмма ориентированных градиентов

Я читал теорию о дескрипторах HOG для обнаружения объекта (человека). Но у меня есть некоторые вопросы о реализации, которые могут звучать как незначительная деталь.

Относительно окна, содержащего блоки; если окно должно перемещаться по пикселю изображения по пикселям, где окна перекрываются на каждом шаге, как показано здесь:

или при перемещении окна без каких-либо перекрытий, как здесь:

Иллюстрации, которые я видел до сих пор, использовали второй подход. Но, учитывая, что окно обнаружения имеет размер 64x128, весьма вероятно, что, сдвинув окно над изображением, невозможно охватить все изображение. Если размер изображения равен 64x255, то последний 127 пикселов не будет проверять объект. Таким образом, первый подход кажется более разумным, однако, больше времени и процессора потребляют.

Любые идеи? Заранее благодарю вас.

EDIT: Я стараюсь придерживаться оригинальной бумаги Далала и Триггса. Один документ, который реализовал алгоритм и использует второй подход, можно найти здесь: http://www.cs.bilkent.edu.tr/~cansin/projects/cs554-vision/pedestrian-detection/pedestrian-detection-paper.pdf

Ответ 1

EDIT: Извините, я неправильно понял ваш вопрос. (Кроме того, ответ, который я дал неверному вопросу, был ошибочным - с тех пор я изменил это ниже для контекста.)

Вы спрашиваете об использовании дескриптора HOG для обнаружения, а не генерируете дескриптор HOG.

В документе реализации, о котором вы говорите выше, похоже, что они перекрывают окно обнаружения. Размер окна составляет 64x128, в то время как они используют горизонтальный шаг 32 пикселя и вертикальный шаг 64. Они также упоминают, что они пытались уменьшить значения шага, но это привело к более высокой ложной положительной скорости (в контексте их реализации).

Кроме того, они используют 3 шкалы входного изображения: 1, 1/2 и 1/4. Они не упоминают о соответствующем масштабировании окна обнаружения - я не уверен, какой эффект будет иметь точка обнаружения. Похоже, что это неявно создало бы перекрытие.

Исходный ответ (исправлено):

Посмотрев на документ Dalal и Triggs (в разделе 6.4), похоже, что они упоминают как i) отсутствие перекрытия блоков, так и ii) перекрытие половины и четверть блока при создании дескриптора HOG. Исходя из их результатов, похоже, что большее перекрытие обеспечивает лучшую эффективность обнаружения (хотя и при больших ресурсах/стоимости обработки).