Подтвердить что ты не робот

Какова цель "uber mode" в hadoop?

Привет, я большой новичок. Я искал по всему Интернету, чтобы узнать, что именно происходит в режиме uber. Чем больше я искал, тем больше меня смущала. Может ли кто-нибудь помочь мне, отвечая на мои вопросы?

  • Что делает uber режим?
  • Это работает по-разному в mapred 1.x и 2.x?
  • И где я могу найти настройки для этого?
4b9b3361

Ответ 1

Что такое режим UBER в Hadoop2?

Обычно мапперы и редукторы запускаются ResourceManager (RM), RM создаст отдельный контейнер для картографа и редуктора. Uber, позволит запускать преобразователь и редукторы в том же процессе, что и ApplicationMaster (AM).

Рабочие места Uber:

Работы Uber - это задания, выполняемые в MapReduce ApplicationMaster. Вместо этого общайтесь с RM, чтобы создать контейнеры картографа и редуктора.  AM запускает карту и сокращает задачи в рамках собственного процесса и избегает накладных расходов на запуск и связь с удаленными контейнерами.

Почему

Если у вас есть небольшой набор данных или вы хотите запустить MapReduce на небольшом количестве данных, конфигурация Uber поможет вам, уменьшив дополнительное время, которое MapReduce обычно проводит в фазе картографа и редукторов.

Могу ли я настроить Uber для всех заданий MapReduce?

На данный момент, задания только для карт и рабочие места с одним редуктором поддерживаются.

Ответ 2

Работа Uber выполняется, когда несколько картографов и редукторов объединяются для использования одного контейнера. В конфигурации "Uber Jobs" в mapred-site.xml есть четыре основных настройки. Параметры конфигурации для Uber Jobs:

  • mapreduce.job.ubertask.enable
  • mapreduce.job.ubertask.maxmaps
  • mapreduce.job.ubertask.maxreduces
  • mapreduce.job.ubertask.maxbytes

Здесь вы можете найти более подробную информацию: http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.15/bk_using-apache-hadoop/content/uber_jobs.html

Ответ 3

С точки зрения hadoop2.x, задания Uber - это задания, которые запускаются в Mapreduce ApplicationMaster, т.е. нет отдельных контейнеров для создания карты и сокращения заданий, и, следовательно, сохраняются накладные расходы на создание контейнеров и связь с ними.

Что касается работы (с hadoop 1.x и 2.x), я полагаю, что разница наблюдается только тогда, когда речь идет о терминологиях 1.x и 2.x, никакой разницы в работе.

Параметры конфигурации аналогичны параметрам, указанным Navneet Kumar в его ответе.
PS: Используйте его только с небольшим набором данных.

Ответ 4

Довольно хорошие ответы даны для "Что такое режим Uber?" Просто добавьте дополнительную информацию для "Почему?"

Мастер приложения решает, как выполнять задачи, которые делают выполните задание MapReduce. Если задание невелико, мастер приложения может выбрать запуск задач в той же самой JVM, что и сам. Это происходит, когда он считает, что накладные расходы по распределению и запуску задач в новых контейнерах перевешивают выигрыш при параллельном запуске их по сравнению с их последовательным запуском на одном node.

Теперь вопросы могут быть подняты как "Что квалифицируется как небольшая работа?

По умолчанию небольшое задание - это то, которое имеет менее 10 карт, только один редуктор и размер ввода, который меньше размера одного блока HDFS.