Я запутался в работе с памятью исполнителей и памятью драйвера в Spark.
Настройки моей среды следующие:
- Память 128 G, 16 CPU для 9 VM
- Centos
- Hadoop 2.5.0-cdh5.2.0
- Искра 1.1.0
Информация о входных данных:
- Файл данных 3,5 ГБ с HDFS
Для простой разработки я выполнил свой код Python в автономном режиме кластера (8 рабочих, 20 ядер, 45,3 Г памяти) с помощью spark-submit
. Теперь я хотел бы установить память исполнителей или память драйвера для настройки производительности.
Из документации Spark определение для памяти исполнителя
Объем памяти для каждого процесса-исполнителя в том же формате, что и строки памяти JVM (например, 512 м, 2 г).
Как насчет памяти драйвера?