Объяснение ввода Keras: input_shape, units, batch_size, dim и т.д.

Для любого слоя Keras (класс Layer) может кто-нибудь объяснить, как понимать разницу между input_shape, units, dim и т.д.?

Например, в документе указывается, что units определяют форму вывода слоя.

На изображении нейронной сети ниже hidden layer1 имеется 4 единицы. Это напрямую преобразуется в атрибут units объекта Layer? Или units в Keras равны форме каждого веса в скрытом слое, умноженном на количество единиц?

Короче говоря, как понимать/визуализировать атрибуты модели - в частности, слои - с изображением ниже?

Ответ 1

Единицы:

Количество "нейронов", или "клеток", или того, что имеет слой внутри него.

Это свойство каждого слоя, и да, оно связано с выходной формой (как мы увидим позже). На вашей картинке, кроме входного слоя, который концептуально отличается от других слоев, у вас есть:

Скрытый слой 1: 4 единицы (4 нейрона)
Скрытый слой 2: 4 юнита
Последний слой: 1 единица

Формы

Фигуры являются следствием конфигурации модели. Фигуры - это кортежи, представляющие, сколько элементов имеет массив или тензор в каждом измерении.

Пример: форма (30,4,10) 30, 4, 10 (30,4,10) означает массив или тензор с 3 измерениями, содержащими 30 элементов в первом измерении, 4 во втором и 10 в третьем, всего 30 * 4 * 10 = 1200 элементов или чисел.

Форма ввода

То, что течет между слоями, является тензором. Тензоры можно рассматривать как матрицы, с формами.

В Keras сам входной слой - это не слой, а тензор. Это стартовый тензор, который вы отправляете на первый скрытый слой. Этот тензор должен иметь ту же форму, что и ваши тренировочные данные.

Пример: если у вас есть 30 изображений 50x50 пикселей в RGB (3 канала), форма ваших входных данных будет (30,50,50,3). Тогда ваш тензор входного слоя должен иметь эту форму (см. Подробности в разделе "формы в керасе").

Каждый тип слоя требует ввода с определенным количеством измерений:

Dense слои требуют ввода как (batch_size, input_size)
- или (batch_size, optional,...,optional, input_size)
2D сверточные слои нуждаются во входных данных как:
- при использовании channels_last: (batch_size, imageside1, imageside2, channels)
- при использовании channels_first: (batch_size, channels, imageside1, imageside2)
Использование 1D сверток и повторяющихся слоев (batch_size, sequence_length, features)
- Подробности о том, как подготовить данные для повторяющихся слоев

Теперь форма ввода является единственной, которую вы должны определить, потому что ваша модель не может ее знать. Только вы знаете это, основываясь на ваших данных обучения.

Все остальные формы рассчитываются автоматически на основе единиц и особенностей каждого слоя.

Отношение между формами и единицами - выходная форма

При заданной входной форме все остальные формы являются результатами вычислений слоев.

"Единицы" каждого слоя будут определять выходную форму (форму тензора, который создается слоем и который будет входом следующего слоя).

Каждый тип слоя работает определенным образом. Плотные слои имеют выходную форму, основанную на "единицах", сверточные слои имеют выходную форму, основанную на "фильтрах". Но это всегда основано на некотором свойстве слоя. (Смотрите документацию для каждого слоя)

Давайте покажем, что происходит со "плотными" слоями, тип которых показан на вашем графике.

Плотный слой имеет выходную форму (batch_size,units). Так что, да, свойство слоя, свойства, также определяет выходную форму.

Скрытый слой 1: 4 единицы, выходная форма: (batch_size,4).
Скрытый слой 2: 4 единицы, выходная форма: (batch_size,4).
Последний слой: 1 единица, выходная форма: (batch_size,1).

Веса

Вес будет полностью рассчитываться автоматически на основе входных и выходных форм. Опять же, каждый тип слоя работает определенным образом. Но веса будут матрицей, способной преобразовывать входную форму в выходную форму с помощью некоторой математической операции.

В плотном слое веса умножают все входные данные. Это матрица с одним столбцом на вход и одной строкой на единицу, но это часто не важно для базовых работ.

На изображении, если бы на каждой стрелке был номер умножения, все числа вместе образовали бы матрицу весов.

Формы в Керасе

Ранее я привел пример 30 изображений, 50x50 пикселей и 3 каналов, имеющих форму ввода (30,50,50,3).

Поскольку форма ввода является единственной, которую вам нужно определить, Keras будет требовать ее в первом слое.

Но в этом определении Keras игнорирует первое измерение, которое является размером партии. Ваша модель должна иметь возможность работать с любым размером партии, поэтому вы определяете только другие измерения:

input_shape = (50,50,3)
    #regardless of how many images I have, each image has this shape

При желании или когда это требуется для определенных типов моделей, вы можете передать форму, содержащую размер пакета, с помощью batch_input_shape=(30,50,50,3) или batch_shape=(30,50,50,3). Это ограничивает ваши возможности обучения этим уникальным размером партии, поэтому его следует использовать только тогда, когда это действительно необходимо.

В любом случае, тензоры в модели будут иметь размерность партии.

Таким образом, даже если вы использовали input_shape=(50,50,3), когда keras отправляет вам сообщения или когда вы печатаете сводку модели, она будет отображаться (None,50,50,3).

Первым измерением является размер пакета, а не None поскольку он может варьироваться в зависимости от того, сколько примеров вы приводите для обучения. (Если вы определили размер пакета в явном виде, то число которое вы определили появится вместо None)

Кроме того, в продвинутых работах, когда вы фактически воздействуете непосредственно на тензоры (например, внутри слоев Lambda или в функции потерь), размер размера партии будет там.

Таким образом, при определении формы ввода вы игнорируете размер пакета: input_shape=(50,50,3)
При выполнении операций непосредственно над тензорами форма снова будет (30,50,50,3)
Когда keras отправляет вам сообщение, форма будет (None,50,50,3) или (30,50,50,3), в зависимости от того, какой тип сообщения он вам отправляет.

тусклый

И в конце концов, что такое dim?

Если ваша входная форма имеет только одно измерение, вам не нужно input_dim его как кортеж, вы input_dim как скалярное число.

Итак, в вашей модели, где ваш входной слой имеет 3 элемента, вы можете использовать любой из этих двух:

input_shape=(3,) - запятая необходима, когда у вас есть только одно измерение
input_dim = 3

Но когда речь идет непосредственно о тензорах, часто dim относится к тому, сколько измерений имеет тензор. Например, тензор с формой (25,10909) имеет 2 измерения.

Определение вашего изображения в Керасе

У Keras есть два способа сделать это: Sequential модели или функциональная Model API. Я не люблю использовать последовательную модель, позже вам все равно придется ее забыть, потому что вам понадобятся модели с ответвлениями.

PS: здесь я проигнорировал другие аспекты, такие как функции активации.

С последовательной моделью:

from keras.models import Sequential  
from keras.layers import *  

model = Sequential()    

#start from the first hidden layer, since the input is not actually a layer   
#but inform the shape of the input, with 3 elements.    
model.add(Dense(units=4,input_shape=(3,))) #hidden layer 1 with input

#further layers:    
model.add(Dense(units=4)) #hidden layer 2
model.add(Dense(units=1)) #output layer

С функциональной моделью API:

from keras.models import Model   
from keras.layers import * 

#Start defining the input tensor:
inpTensor = Input((3,))   

#create the layers and pass them the input tensor to get the output tensor:    
hidden1Out = Dense(units=4)(inpTensor)    
hidden2Out = Dense(units=4)(hidden1Out)    
finalOut = Dense(units=1)(hidden2Out)   

#define the model start and end points    
model = Model(inpTensor,finalOut)

Формы тензоров

Помните, что при определении слоев вы игнорируете размеры пакетов:

inpTensor: (None,3)
hidden1Out: (None,4)
hidden2Out: (None,4)
finalOut: (None,1)

Ответ 2

Размер входного сигнала уточнен:

Не прямой ответ, но я только понял, что слово Input Dimension может быть довольно запутанным, поэтому будьте осторожны:

Это (только размер слова) может относиться к:

a) Размер входных данных (или потока), таких как # N осей датчика, для пучка сигнала временного ряда или цветного канала RGB (3): предлагаемое слово => "Размер входного потока ",

b) Общее количество/длина входных функций (или входного слоя) (28 x 28 = 784 для цветного изображения MINST) или 3000 в преобразованных спектральных значениях FFT или

"Размер входного слоя/входного параметра"

c) Размерность (# размерности) ввода (обычно 3D, как и ожидалось в Keras LSTM) или (#RowofSamples, #of Senors, #of Values ..) 3 - это ответ.

"N Размерность ввода"

d) СПЕЦИФИЧЕСКАЯ ФОРМА ВХОДА (например, (30,50,50,3) в этих развернутых данных входного изображения или (30, 250, 3), если разворачивается Keras:

Keras имеет свой input_dim, который ссылается на размер входного слоя/количество функций ввода

model = Sequential()
model.add(Dense(32, input_dim=784))  #or 3 in the current posted example above
model.add(Activation('relu'))

В Keras LSTM это относится к общим шагам времени

Этот термин был очень запутанным, правильным, и мы живем в очень запутанном мире!

Я нахожу, что одна из задач в Machine Learning заключается в том, чтобы иметь дело с разными языками или диалектами и терминологиями (например, если у вас есть 5-8 самых разных версий английского языка, тогда вам нужно очень хорошо владеть разговорами с разными динамиками). Вероятно, это тоже самое на языках программирования.

Ответ 3

Я до сих пор не понимаю. Если я добавлю некоторые данные в пример, предоставленный @Daniel Möller, следующим образом:

from keras.models import Sequential  
from keras.layers import *  
import numpy as np

x_train = np.random.random((30,50,50,3))
y_train = np.random.randint(2, size=(30,1))

model = Sequential()    

#start from the first hidden layer, since the input is not         actually a layer   
#but inform the shape of the input, with 3 elements.    
model.add(Dense(units=4,input_shape=(3,))) #hidden layer 1    with input

#further layers:    
model.add(Dense(units=4)) #hidden layer 2
model.add(Dense(units=1)) #output layer

model.compile(loss='binary_crossentropy',
           optimizer='adam',
           metrics=['accuracy'])

model.fit(x_train, y_train,
       epochs=20,
       batch_size=128)
score = model.evaluate(x_test, y_test, batch_size=128)

Я получаю эту ошибку:

ValueError: Ошибка при проверке ввода: ожидалось, что dens_1_input имел 2 измерения, но получил массив с формой (30, 50, 50, 3).

Есть идеи о том, что я делаю не так?