Я пытаюсь обучить очень большую модель. Поэтому в память GPU я могу установить только малый размер партии. Работа с небольшими партиями результатов с очень шумными оценками градиента.
Что я могу сделать, чтобы избежать этой проблемы?
Caffe: Что я могу сделать, если только небольшая партия вписывается в память?
Ответ 1
Вы можете изменить iter_size
в параметрах решателя.
Caffe накапливает градиенты над экземплярами iter_size
x batch_size
на каждом стохастическом шаге спуска градиента.
Таким образом, увеличение iter_size
также может получить более стабильный градиент, если вы не можете использовать большой пакет batch_size из-за ограниченной памяти.
Ответ 2
Как указано в этом сообщении, размер партии не является проблемой в теории (эффективность стохастического градиентного спуска была доказана партией размера 1). Убедитесь, что вы правильно выполнили свою партию (образцы должны быть случайно отсортированы по вашим данным).