Float16 медленнее, чем float32 в keras

Я тестирую свой новый NVIDIA Titan V, который поддерживает операции float16. Я заметил, что во время обучения float16 намного медленнее (~ 800 мс/шаг), чем float32 (~ 500 мс/шаг).

Чтобы выполнить операции float16, я изменил файл keras.json на:

{
"backend": "tensorflow",
"floatx": "float16",
"image_data_format": "channels_last",
"epsilon": 1e-07
}

Почему операции float16 намного медленнее? Нужно ли мне вносить изменения в мой код, а не только файл keras.json?

Я использую CUDA 9.0, cuDNN 7.0, tensorflow 1.7.0 и keras 2.1.5 в Windows 10. Мой код python 3.5 приведен ниже:

img_width, img_height = 336, 224

train_data_dir = 'C:\\my_dir\\train'
test_data_dir = 'C:\\my_dir\\test'
batch_size=128

datagen = ImageDataGenerator(rescale=1./255,
    horizontal_flip=True,   # randomly flip the images 
    vertical_flip=True) 

train_generator = datagen.flow_from_directory(
    train_data_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode='binary')

test_generator = datagen.flow_from_directory(
    test_data_dir,
    target_size=(img_height, img_width),
    batch_size=batch_size,
    class_mode='binary')

# Architecture of NN
model = Sequential()
model.add(Conv2D(32,(3, 3), input_shape=(img_height, img_width, 3),padding='same',kernel_initializer='lecun_normal'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(32,(3, 3),padding='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64,(3, 3),padding='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(64,(3, 3),padding='same'))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(AveragePooling2D(pool_size=(2,2)))
model.add(Flatten())
model.add(Dense(1))
model.add(Activation('sigmoid'))

my_rmsprop = keras.optimizers.RMSprop(lr=0.0001, rho=0.9, epsilon=1e-04, decay=0.0)
model.compile(loss='binary_crossentropy',
          optimizer=my_rmsprop,
          metrics=['accuracy'])

# Training 
nb_epoch = 32
nb_train_samples = 512
nb_test_samples = 512

model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples/batch_size,
    epochs=nb_epoch,
    verbose=1,
    validation_data=test_generator,
    validation_steps=nb_test_samples/batch_size)

# Evaluating on the testing set
model.evaluate_generator(test_generator, nb_test_samples)

Ответ 1

Я обновился до CUDA 10.0, cuDNN 7.4.1, тензор потока 1.13.1, кераса 2.2.4 и python 3.7.3. Используя тот же код, что и в OP, время обучения было немного быстрее с float16 по сравнению с float32.

Я полностью ожидаю, что более сложная сетевая архитектура продемонстрирует большую разницу в производительности, но я не проверял это.

Ответ 2

Из документации cuDNN (раздел 2.7, подраздел Преобразование типов) вы можете увидеть:

Примечание. Аккумуляторы - это 32-разрядные целые числа, которые переносятся при переполнении.

и что это справедливо для стандартного типа данных INT8 следующего: ввод данных, вход фильтра и выход.

Согласно этим предположениям, @jiandercy прав, что существует преобразование float16 в float32, а затем обратное преобразование до возврата результата, и float16 будет медленнее.

Ответ 3

У меня та же проблема с обучением смешанной точности tenor2tensor, моя смешанная точность не намного быстрее, чем float, но fairseq в 2 раза больше, чем float. Как можно решить эту проблему.

Tensorflow 1.14 cuda 10 cudnn 7.4.0 TITAI V