Я пытался использовать этот учебник http://spark.apache.org/docs/latest/quick-start.html Сначала я создал коллекцию из файла
textFile = sc.textFile("README.md")
Затем я попробовал команду, чтобы закодировать слова:
wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
Чтобы распечатать коллекцию:
wordCounts.collect()
Я нашел, как сортировать его по слову, используя команду sortByKey. Мне было интересно, как можно было бы сделать то же самое для сортировки по значению, что в этом случае в количестве, которое в документе происходит в слове.