Имя node Второе имя пользователя node

Hadoop согласуется и терпимо к разделу, т.е. подпадает под категорию CP теорема CAP.

Hadoop недоступен, потому что все узлы зависят от имени node. Если имя node падает, кластер гаснет.

Но учитывая тот факт, что кластер HDFS имеет вторичное имя node, почему мы не можем назвать hasoop доступным. Если имя node отсутствует, вторичное имя node может использоваться для записи.

В чем основное различие между именем node и вторичным именем node, что делает hasoop недоступным.

Спасибо заранее.

Ответ 1

Наменэд хранит информацию файловой системы HDFS в файле с именем fsimage. Обновления файловой системы (добавить/удалить блоки) не обновляют файл fsimage, а записываются в файл, поэтому ввод-вывод быстро добавляет только потоковое воспроизведение в отличие от случайной записи файлов. При восстановлении namenode считывает fsimage, а затем применяет все изменения из файла журнала, чтобы обновить состояние файловой системы в памяти. Этот процесс требует времени.

Вторичное задание не должно быть вторичным по отношению к имени node, но только для периодического чтения журнала изменений файловой системы и их применения в файл fsimage, что позволяет обновить его. Это позволяет наменоводу быстрее запускаться в следующий раз.

Unfortunatley служба вторичных имен не является резервным вторичным namenode, несмотря на его имя. В частности, он не предлагает HA для namenode. Это хорошо иллюстрируется здесь.

См. Общие сведения о запуске операций NameNode в HDFS.

Обратите внимание, что более свежие дистрибутивы (текущий Hadoop 2.6) представляют надменную высоту с использованием NFS (разделяемое хранилище) и/или namenode Высокая доступность с помощью Quorum Journal Manager.

Ответ 2

С годами изменились вещи, особенно с помощью Hadoop 2.x. Теперь Namenode очень доступен с функцией сбоя.

Вторичный Namenode является необязательным, и Standby Namenode использовался для процесса восстановления после сбоя.

Standby NameNode будет оставаться актуальным при всех изменениях файловой системы, чем Active NameNode.

HDFS Высокая доступность возможна с двумя параметрами: NFS и Quorum Диспетчер журналов но предпочтительнее вариант Quorum Journal Manager.

Взгляните на Apache документация

Из слайда 8 из: http://www.slideshare.net/cloudera/hdfs-futures-world2012-widescreen

Если какая-либо модификация пространства имен выполняется Active node, она долго регистрирует запись изменения для большинства этих JN. В режиме ожидания node считываются эти изменения из JN и применяются к его собственному пространству имен.

В случае перехода на резервный ресурс резервный режим гарантирует, что он прочитал все изменения из JounalNodes, прежде чем продвигать себя в активное состояние. Это гарантирует, что состояние пространства имен будет полностью синхронизировано до возникновения сбоя.

Посмотрите на процесс сбоя в связанном вопросе SE:

Как работает процесс отката Hadoop Namenode?

Что касается ваших запросов по теории CAP для Hadoop:

Он может быть сильным.
HDFS почти полностью доступен, если вы не встретили какую-то неудачу (Если все три копии блока опущены, вы не получите данные)
Поддержка разделов данных

Ответ 3

Даже в HDFS High Availability, где есть два NameNodes вместо одного NameNode и одного SecondaryNameNode, в строгом смысле CAP нет доступности. Он применяется только к компоненту NameNode, и даже там, если сетевой раздел отделяет клиента от обоих имен, то кластер фактически недоступен.

Ответ 4

Имя Node является основным Node, в котором все метаданные в хранятся в файлах fsimage и editlog периодически. Но, когда имя Node вниз вторично Node будет в сети, но этот Node имеет доступ только для чтения к файлам fsimage и editlog и не имеет доступа к записи для них. Все вторичные операции Node будут сохранены в папку temp. когда имя Node возвращается в онлайн, эта папка temp будет скопирована на имя Node, а namenode обновит файлы fsimage и editlog.

Ответ 5

Если я объясню это простым способом, предположим, что имя Node в качестве мужчины (рабочий/живой) и вторичное имя Node в качестве банкомата (хранилище/хранилище данных)
Таким образом, все функции, выполняемые только NN или мужчинами, но если он идет вниз/не удается, SNN будет бесполезным, он не работает, но позже он может использоваться для восстановления ваших данных или журналов.

Ответ 6

Когда NameNode запускается, он загружает FSImage и воспроизводит журналы редактирования для создания последнего обновленного пространства имен. Этот процесс может занять много времени, если размер файла "Редактировать журнал" большой и, следовательно, увеличивает время запуска. Задача Вторичного имени Node - периодически проверять журнал изменений и повтор воспроизведения для создания обновленного FSImage и сохранения в постоянном хранилище. При запуске Name Node ему не нужно переписывать журнал изменений для создания обновленного FSImage, он использует FSImage, созданный по второму имени node.

Ответ 7

Указательный элемент - это мастер node, который содержит метаданные в терминах fsimage и также содержит журнал изменений. Журнал редактирования содержит недавно добавленную/удаленную информацию блока в пространстве имен namenode. Файл fsimage содержит метаданные всей системы suoop в постоянном хранилище. Каждый раз, когда нам нужно постоянно вносить изменения в fsimage, нам нужно перезапустить namenode, чтобы редактировать информацию журнала журнала можно в namenode, но для этого требуется много времени.

Для обновления fsimage используется вторичный namenode. Второе имя node будет обращаться к журналу редактирования и постоянно вносить изменения в fsimage, чтобы в следующий раз namenode мог запускаться быстрее.

В основном вторичный namenode является помощником для namenode и выполняет служебную функцию для namenode.