Я слежу за учебниками на DeepLearning.net, чтобы узнать, как реализовать сверточную нейронную сеть, которая извлекает функции из изображений. Учебное пособие хорошо объяснено, легко понять и следовать.
Я хочу расширить тот же CNN, чтобы извлекать мультимодальные функции из видео (изображений + аудио) одновременно.
Я понимаю, что видеовход - это не что иное, как последовательность изображений (интенсивности пикселей), отображаемых за определенный промежуток времени (например, 30 FPS), связанных с аудио. Тем не менее, я не совсем понимаю, что такое аудио, как оно работает или как оно разбито для подачи в сеть.
Я прочитал несколько работ по этой теме (извлечение/представление мультимодальных функций), но никто не объяснил, как аудио вводится в сеть.
Кроме того, я понимаю из своих исследований, что мультимодальное представление - это способ, которым наши мозги действительно работают, поскольку мы не намеренно отфильтровываем наши чувства для достижения понимания. Все это происходит одновременно, если мы не знаем об этом (совместное представление). Простым примером было бы, если бы мы услышали рев льва, мы мгновенно сочиним мысленный образ льва, почувствуем опасность и наоборот. Множество нейронных узоров устремлены в наши мозги, чтобы достичь полного понимания того, как выглядит лев, звучит, чувствует себя, пахнет и т.д.
Вышеупомянутая моя конечная цель, но пока я нарушаю свою проблему ради простоты.
Я был бы очень признателен, если бы кто-нибудь мог пролить свет на то, как аудио расчленяется, а затем представлено в сверточной нейронной сети. Я также ценю ваши мысли относительно мультимодальной синхронизации, совлокальных представлений и того, что является надлежащим способом обучения CNN мультимодальными данными.
EDIT: Я узнал, что аудио может быть представлено в виде спектрограмм. Это как общий формат для аудио и представляется в виде графика с двумя геометрическими размерами, где горизонтальная линия представляет время, а вертикаль представляет частоту.
Можно ли использовать ту же технику с изображениями на этих спектрограммах? Другими словами, могу ли я просто использовать эти спектрограммы в качестве входных изображений для моей сверточной нейронной сети?