Почему ротационно-инвариантные нейронные сети не используются в победителях популярных конкурсов?

Как известно, современная самая популярная CNN (сверточная нейронная сеть): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - не вращаются инвариантно: современная CNN (сверточная нейронная сеть), так как DetectNet вращает инвариант?

Известно также, что существует несколько нейронных сетей с обнаружением объекта с вращающейся инвариантностью:

Вращающийся инвариантный неоперсептрон 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron
Изучение ротации инвариантных сверточных фильтров для классификации текстур 2016 (PDF): <а4 >
RIFD-CNN: вращательно-инвариантные и фишер-дискриминантные сверточные нейронные сети для обнаружения объектов 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html
Закодированная инвариантность в сверточных нейронных сетях 2014 (PDF)
Вращающиеся инвариантные сверточные нейронные сети для предсказания морфологии галактик (PDF): <а9 >
Изучение вращательно-инвариантных сверточных нейронных сетей для обнаружения объектов в оптических изображениях дистанционного зондирования VHR 2016: http://ieeexplore.ieee.org/document/7560644/

Мы знаем, что в таких соревнованиях по обнаружению изображений, как IMAGE-NET, MSCOCO, PASCAL VOC - используются сетевые ансамбли (одновременно некоторые нейронные сети). Или сетевые ансамбли в единой сети, такие как ResNet (Остаточные сети, действующие как ансамбли относительно неглубоких сетей)

Но используются ротационно-инвариантные сетевые ансамбли в победителях как MSRA, а если нет, то почему? Почему в ансамбле дополнительная чередово-инвариантная сеть не добавляет точности для обнаружения определенных объектов, таких как объекты самолетов, - какие изображения выполняются под разными углами поворота?

Это может быть:

объекты самолетов, которые сфотографированы с земли
или наземные объекты, которые сфотографированы с воздуха

Почему ротационно-инвариантные нейронные сети не используются в победителях популярных конкурсов по обнаружению объектов?

Ответ 1

Недавний прогресс в распознавании изображений, который в основном был сделан путем изменения подхода от классического выбора функции - алгоритма неполного обучения без выбора фетов - алгоритм глубокого обучения был вызван не только математическими свойствами сверточных нейронных сетей. Да, конечно, их способность фиксировать одну и ту же информацию с использованием меньшего количества параметров была частично вызвана свойством инвариантности сдвига, но недавнее исследование фантастической книге, эти два подхода (более строгая и меньшая структура + увеличение данных) более или менее эквивалентны.

Ответ 2

Мне также интересно, почему сообщество или ученый не уделяли много внимания рационализации CNN как @Alex.

Одна из возможных причин, на мой взгляд, заключается в том, что многим сценариям не требуется это свойство, особенно для тех популярных соревнований. Как сказал Роб, некоторые естественные картины уже сделаны в едином горизонтальном (или вертикальном) направлении. Например, при обнаружении лица многие работы выравнивают изображение, чтобы люди стояли на земле перед подачей на любые модели CNN. Честно говоря, это самый дешевый и эффективный способ для этой конкретной задачи.

Однако в реальной жизни существуют некоторые сценарии, требующие свойства инвариантности вращения. Поэтому я прихожу к другой догадке: эта проблема не является сложной с точки зрения экспертов (или исследователей). По крайней мере, мы можем использовать увеличение данных для получения некоторого инварианта вращения.

И наконец, большое спасибо за ваше резюме по поводу бумаг. Я добавил еще одну бумагу Group Equivariant Convolutional Networks_icml2016_GCNN и ее реализация на github другими людьми.