Подтвердить что ты не робот

Как "развязать" узлы slurm в состоянии стока

Используя sinfo, он показывает, что 3 узла находятся в состоянии drain,

PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
all*         up   infinite      3  drain node[10,11,12]

Какую командную строку использовать для развязывания таких узлов?

4b9b3361

Ответ 1

Найденный подход, введите интерпретатор scontrol (в командной строке scontrol), а затем

scontrol: update NodeName=node10 State=DOWN Reason="undraining"
scontrol: update NodeName=node10 State=RESUME

Тогда

scontrol: show node node10

отображает среди других сведений

State=IDLE

Обновить: некоторые из этих узлов получили состояние DRAIN; заметил, что их корневой раздел был заполнен после того, как, например, show node a10, который показал Reason=SlurmdSpoolDir is full, таким образом, в Ubuntu sudo apt-get clean, чтобы удалить содержимое /var/cache/apt, а также gzipped некоторые файлы /var/log.

Ответ 2

Если вы установите его вниз, все задания будут убиты.

Установите вместо node значение RESUME.