Какое дополнительное преимущество приносит пряжа на существующую карту?

Пряжа отличается от своего уровня инфраструктуры от исходной карты, уменьшая архитектуру следующим образом:

В YARN трекер заданий разбивается на два разных демона, называемых Resource Manager и Node Manager (node specific). Менеджер ресурсов управляет распределением ресурсов только для разных заданий, помимо планировщика, который просто выполняет задания по планированию, не беспокоясь о каких-либо проверках или обновлениях состояния. Различные ресурсы, такие как память, время процессора, пропускная способность сети и т.д., Помещаются в один блок под названием Resource Container. Существуют разные AppMasters, запущенные на разных узлах, которые общаются с несколькими этими контейнерами ресурсов и соответственно обновляют Node Manager с данными мониторинга/состояния.

Я хочу знать, как с помощью такого подхода увеличить производительность с точки зрения сокращения карты? Кроме того, если есть какой-либо окончательный контент о мотивации за пряжу и ее преимуществах по сравнению с существующей реализацией Map-reduce, укажите, пожалуйста, то же самое.

Ответ 1

Вот некоторые из статей (1, 2, 3) о YARN. Они говорят о преимуществах использования YARN.

YARN является более общим, чем MR, и должно быть возможно запустить другие вычислительные модели, такие как BSP, кроме MR. До YARN требуется отдельный кластер для MR, BSP и других. Теперь они могут сосуществовать в одном кластере, что приводит к более высокому использованию кластера. Вот некоторые из приложений, перенесенных в YARN.

С точки зрения MapReduce в устаревшем MR есть отдельные слоты для задач Map и Reduce, но в YARN они не являются фиксированной целью контейнера. Один и тот же контейнер можно использовать для задачи "Карта", "Уменьшить задачу", "Задача Hama BSP" или что-то еще. Это приводит к лучшему использованию.

Кроме того, он позволяет запускать разные версии Hadoop в одном кластере, что невозможно при использовании устаревшего MR, что упрощает задачу обслуживания.

Здесь - некоторые дополнительные ссылки для YARN. Кроме того, Hadoop: The Definitive Guide, 3rd Edition содержит весь раздел, посвященный YARN.

FYI, было немного противоречивым, чтобы разработать YARN вместо использования некоторых фреймворков, которые делали что-то похожее и успешно работали с ошибками, сглаженными из.

Ответ 2

Я не думаю, что пряжа ускорит существующую структуру MR. Изучая архитектуру, мы видим, что система теперь более модульная, но модульность обычно противоречит более высокой производительности.
Можно утверждать, что YARN не имеет ничего общего с MapReduce. MapReduce только что стал одним из приложений YARN. Вы можете видеть это как переход от некоторой встроенной программы к встроенной ОС с программой внутри нее
В то же время Yarn открывает дверь для различных реализаций MR с различными фреймворками. Например, если предположить, что наш набор данных меньше, чем кластерная память, мы можем получить гораздо лучшую производительность. Я думаю, http://www.spark-project.org/ - один из таких примеров Подводя итог этому: пряжа не улучшает существующие МР, но позволит другим реализациям МРТ быть лучше во всех аспектах.

Ответ 3

Все приведенные выше ответы охватывают множество информации: я упрощаю всю информацию следующим образом:

MapReduce:                          YARN:

1. It is Platform plus Application  It is a Platform in Hadoop 2.0 and 
in Hadoop 1. 0 and it is only of    doesn't exist in Hadoop 1.0
the applications in Hadoop 2.0

2. It is single use system i.e.,    It is multi purpose system, We can run
We can run MapReduce jobs only.     MapReduce, Spark, Tez, Flink, BSP, MPP,
                                    MPI, Giraph etc... (General Purpose)

3. JobTracker scalability i.e.,     Both Resource Management and
Both Resource Management and        Application Management gets separated & 
Job Management                      managed by RM+NM, Paradigm specific AMs
                                    respectively.

4. Poor Resource Management         Flexible Resource Management i.e., 
system i.e., slots (map/reduce)     containers.

5. It is not highly available       High availability and reliability.

6. Scaled out up to 5000 nodes      Scaled out 10000 plus nodes.

7. Job->tasks                        Application -> DAG of Jobs -> tasks

8. Classical MapReduce = MapReduce  Yarn MapReduce = MapReduce API +      
   API + MapReduce FrameWork        MapReduce FrameWork + YARN System
   + MapReduce System               So MR programs which were written over
                                    Hadoop 1.0 run over Yarn also with out
                                    changing a single line of code i.e.,
                                    backward compatibility.

Ответ 4

Посмотрите на недостатки Hadoop 1.0, которые были рассмотрены Hadoop 2.0 с добавлением пряжи.

Проблема масштабируемости. Отслеживание заданий выполняется на одной машине, даже если у вас есть тысячи узлов в кластере Hadoop. Обязанности диспетчера заданий: управление ресурсами, расписание работы и задач и мониторинг. Поскольку все эти процессы работают на одном node, эта модель не масштабируема.
Проблема доступности (единственная точка отказа). Отслеживание заданий - это единственная точка отказа.
Использование ресурсов. Из-за предопределенного количества слотов "Карта" и "Уменьшение" ресурсы не используются должным образом. Когда все узлы Mapper заняты, узлы редуктора простаивают и не могут использоваться для обработки задач Mapper.
Тесная интеграция с каркасом Уменьшить фреймворк: Hadoop 1.x может выполнять только работу по сокращению карты. Поддержка рабочих мест, отличных от Map Reduce jobs, не существует.

Теперь одно узкое место Job Tracker было удалено с помощью YARN в Hadoop 2.x

Основная идея YARN состоит в том, чтобы разделить функциональные возможности управления ресурсами и планирования работы/мониторинга на отдельные демоны. Идея состоит в том, чтобы иметь глобальный ResourceManager (RM) и для каждого приложения ApplicationMaster (AM). Приложение представляет собой либо одно задание, либо DAG заданий.

ResourceManager имеет два основных компонента: Планировщик и ApplicationManager.

Планировщик отвечает за распределение ресурсов для различных запущенных приложений, которые знакомы с ограничениями пропускной способности, очередей и т.д. Планировщик - это чистый планировщик в том смысле, что он не выполняет мониторинг или отслеживание статуса для приложения.

ApplicationManager отвечает за прием подчиненных запросов, согласование первого контейнера для выполнения конкретного приложения ApplicationMaster and provides the service for restarting the ApplicationMaster container on failure.

ApplicationMaster несет ответственность за согласование соответствующих контейнеров ресурсов с Планировщиком, отслеживание их состояния и мониторинг прогресса.

Теперь преимущества YARN

Масштабируемость устранены.
Нет единой точки отказа. Все компоненты доступны.
Использование ресурсов было улучшено за счет правильного использования карт и сокращения слотов.
Отчеты о снижении стоимости карты могут быть отправлены

Ответ 5

Похоже, эта ссылка может быть тем, что вы ищете: http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/.

Я понимаю, что YARN предполагается более общим. Вы можете создавать свои собственные приложения YARN, которые ведут переговоры напрямую с Resource Manager для ресурсов (1), а MapReduce - всего лишь один из нескольких Менеджеров приложений, которые уже существуют (2).