Подтвердить что ты не робот

Преимущества файла Sequence поверх текстового файла hdfs

В чем преимущество файла последовательности Hadoop по файлу HDFS (текст)? Каким образом файл последовательности является эффективным?

Маленькие файлы могут быть объединены и записаны в файл последовательности, но то же самое можно сделать и для текстового файла HDFS. Необходимо знать разницу между двумя способами. Я давно искал эту проблему, было бы полезно, если бы я получил ясность в этом вопросе?

4b9b3361

Ответ 1

  • Файлы последовательности подходят для ситуаций, в которых вы хотите сохранить ключи и их соответствующие значения. Для текстовых файлов вы можете это сделать, но вам нужно проанализировать каждую строку.
  • Может быть сжат и по-прежнему будет разделяться, что означает лучшую рабочую нагрузку. Вы не можете разделить сжатый текстовый файл, если не используете разделительный формат сжатия.
  • Может использоваться как двоичный файл = > более эффективное хранилище. В текстовом файле двойным будет количество символов = большие расходы на хранение.

Ответ 2

Преимущества Hadoop Файлы последовательности (согласно Siva статье с сайта hadooptutorial.info)

  • Больше compact, чем текстовые файлы
  • Обеспечивает поддержку сжатия на разных уровнях - Block или Record и т.д.
  • Файлы можно разделить и обрабатывать параллельно
  • Они могут решить большое количество проблем с небольшими файлами в Hadoop, где основным преимуществом Hadoop является обработка большого файла с заданиями Map уменьшить. Он может использоваться как контейнер для большого количества небольших файлов.
  • Временный вывод Mapper может быть сохранен в последовательных файлах

Недостатки:

  • Последовательные файлы добавляются только

Ответ 3

Файлы последовательности - это промежуточные файлы, созданные во время этапа Mapper и редуктора обработки MapReduce. Последовательный файл сжимается и быстро обрабатывается, он используется для записи вывода во время преобразования и красного красного цвета из него. В Hadoop и Spark есть API-интерфейсы для чтения/записи файлов последовательности