Подтвердить что ты не робот

Caffe: Что я могу сделать, если только небольшая партия вписывается в память?

Я пытаюсь обучить очень большую модель. Поэтому в память GPU я могу установить только малый размер партии. Работа с небольшими партиями результатов с очень шумными оценками градиента.
Что я могу сделать, чтобы избежать этой проблемы?

Ответ 1

Вы можете изменить iter_size в параметрах решателя. Caffe накапливает градиенты над экземплярами iter_size x batch_size на каждом стохастическом шаге спуска градиента. Таким образом, увеличение iter_size также может получить более стабильный градиент, если вы не можете использовать большой пакет batch_size из-за ограниченной памяти.

Ответ 2

Как указано в этом сообщении, размер партии не является проблемой в теории (эффективность стохастического градиентного спуска была доказана партией размера 1). Убедитесь, что вы правильно выполнили свою партию (образцы должны быть случайно отсортированы по вашим данным).