Подтвердить что ты не робот

В чем разница между разделом RDD и срезом?

Руководство по программированию искры упоминает срезы как функцию RDD (как параллельных коллекций, так и наборов данных Hadoop.) ( "Spark будет запускать одну задачу для каждого фрагмента кластера.) Но в разделе о сохранении RDD понятие разделов используется без введения. Кроме того, в документах RDD упоминаются разделы без упоминания фрагментов, а документы SparkContext упоминают фрагменты для создания RDD, но разделы для запуска заданий на RDD. Являются ли эти две концепции одинаковыми? Если нет, то как они отличаются?

Tuning - Уровень Parallelism указывает, что "Spark автоматически устанавливает количество задач" map "для каждого файла в соответствии с его размером... и для распределенных" сокращений "операций, таких как groupByKey и reduceByKey, он использует наибольшее число родительских RDD-номеров разделов. Вы можете передать уровень parallelism в качестве второго аргумента...". Таким образом, это объясняет разницу между разделами и ломтики? Разделы связаны с хранилищем RDD, а срезы связаны со степенью parallelism, и по умолчанию сплайны вычисляются на основе размера данных или количества разделов?

4b9b3361

Ответ 1

Это одно и то же. Документация была исправлена ​​для Spark 1.2 благодаря Мэтью Фаррелли. Подробнее об ошибке: https://issues.apache.org/jira/browse/SPARK-1701