Как вычислить точную медианную с Apache Spark?

Эта страница содержит некоторые функции статистики (среднее значение, stdev, дисперсия и т.д.), но не содержит медианы. Как я могу вычислить точную медианную?

Спасибо

Ответ 1

Вам нужно отсортировать RDD и взять элемент в среднем или среднем из двух элементов. Вот пример с RDD [Int]:

  import org.apache.spark.SparkContext._

  val rdd: RDD[Int] = ???

  val sorted = rdd.sortBy(identity).zipWithIndex().map {
    case (v, idx) => (idx, v)
  }

  val count = sorted.count()

  val median: Double = if (count % 2 == 0) {
    val l = count / 2 - 1
    val r = l + 1
    (sorted.lookup(l).head + sorted.lookup(r).head).toDouble / 2
  } else sorted.lookup(count / 2).head.toDouble

Ответ 2

Используя Spark 2. 0+ и API DataFrame, вы можете использовать метод approxQuantile:

def approxQuantile(col: String, probabilities: Array[Double], relativeError: Double)

Он также будет работать с несколькими столбцами одновременно с Spark версии 2.2. Установив probabilites в Array(0.5) и relativeError в 0, он вычислит точную медиану. Из документации:

Относительная целевая точность для достижения (больше или равно 0). Если установлено в ноль, точные квантили вычисляются, что может быть очень дорого.

Несмотря на это, кажется, есть некоторые проблемы с точностью при установке relativeError ошибки 0, смотрите вопрос здесь. Низкая ошибка, близкая к 0, в некоторых случаях будет работать лучше (зависит от версии Spark).

Небольшой рабочий пример, который вычисляет медиану чисел от 1 до 99 (включительно) и использует низкую relativeError:

val df = (0 to 99).toDF("num")
val median = df.stat.approxQuantile("num", Array(0.5), 0.001)(0)
println(median)

Медиана вернулась 50,0.