Я прочитал несколько книг и статей о сверточной нейронной сети, кажется, я понимаю концепцию, но я не знаю, как ее описать, как на картинке ниже:
(источник: what-when-how.com)
из нормализованного пикселя INPUT 28x28 мы получаем 4 карты характеристик размером 24x24. а как их получить? изменить размер изображения INPUT? или выполнение преобразований изображения? а что за преобразования? или разрезать входное изображение на 4 части размером 24х24 на 4 угла? Я не понимаю этот процесс, мне кажется, что они сокращают или изменяют размер изображения на меньшие изображения на каждом шаге. пожалуйста, помогите спасибо.