Подтвердить что ты не робот

Запуск работы параллельно в hadoop

Я новичок в hadoop.

Я установил кластер 2 node.

Как выполнить 2 задания параллельно в hadoop.

Когда я отправляю задания, они запускаются один за другим в порядке FIFO. Я должен выполнять задания параллельно. Как добиться этого.

Спасибо MRK

4b9b3361

Ответ 1

Hadoop можно настроить с помощью нескольких планировщиков, а по умолчанию - планировщик FIFO.

Расписание FIFO ведет себя следующим образом.

Сценарий 1: Если кластер имеет 10 возможностей для задания карты, а заданию 1 требуется 15 Задача карты, то выполнение задания1 принимает полный кластер. Поскольку job1 продвигается вперед и имеются свободные слоты, которые не используются в job1, тогда job2 запускается в кластере.

Сценарий 2: Если кластер имеет 10 емкости карты, а заданию 1 требуется 6 Задача карты, то задание 1 занимает 6 слотов, а job2 - 4 слота. job1 и job2 работают параллельно.

Чтобы запускать задания параллельно с самого начала, вы можете настроить Fair Scheduler или планировщик производительности исходя из ваших требований. Необходимо указать параметр mapreduce.jobtracker.taskscheduler и конкретные параметры планировщика, чтобы это входило в эффект mapred-site.xml.

Изменить: обновлен ответ на основе комментария от MRK.

Ответ 2

У вас есть "емкость карты" и "Уменьшить емкость задачи". Всякий раз, когда они свободны, они выбирают работу в порядке FIFO. Ваши заданные задания содержат картограф и, возможно, редуктор. Если ваш счетчик заданий (и/или редуктор) меньше, чем вместимость кластера, он будет использовать следующий рабочий график (и/или редуктор).

Если вам не нравится FIFO, вы всегда можете отдавать приоритет своим отправленным заданиям.

Изменить:

Извините за небольшую миссификацию, правильный ответ правильный. в ответ на его ответ вы можете также проверить планировщик HOD.

Ответ 3

При использовании планировщика по умолчанию только одно задание на пользователя за раз. Вы можете запускать разные задания из разных идентификаторов пользователей. Разумеется, они будут работать параллельно, как упомянуто другими, вам нужно иметь достаточную емкость слотов.