Dd: Как рассчитать оптимальный размер блока?

Как вы вычисляете оптимальный размер блока при запуске dd? Я изучил его немного, и я не нашел ничего, что подсказывало бы, как это будет достигнуто.

У меня создается впечатление, что более высокий размер блока приведет к ускорению dd... это правда?

Я собираюсь dd два одинаковых жестких диска Hitachi 500gb, которые работают на скорости 7200 об/мин на ядре с процессором Intel Core i3 с 4 ГБ оперативной памяти DDR3 1333 МГц, поэтому я пытаюсь выяснить, какой размер блока использовать. (Я собираюсь загружать Ubuntu 10.10 x86 с флеш-накопителя и запускать его из этого.)

Ответ 1

Оптимальный размер блока зависит от различных факторов, включая операционную систему (и ее версию) и различные аппаратные шины и диски. Несколько Unix-подобных систем (включая Linux и, по крайней мере, некоторые разновидности BSD) определяют член st_blksize в struct stat, который дает то, что ядро считает оптимальным размером блока:

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

Лучшим способом может быть эксперимент: скопируйте гигабайт с различными размерами блоков и временем. (Не забудьте очистить кеширование буфера ядра перед каждым запуском: echo 3 > /proc/sys/vm/drop_caches).

Однако, как правило, я обнаружил, что достаточно большой размер блока позволяет dd выполнять хорошую работу, а различия между, скажем, 64 KiB и 1 MiB незначительны, по сравнению с 4 KiB по сравнению с 64 KiB. (Хотя, по общему признанию, прошло какое-то время с тех пор, как я это сделал. По умолчанию я использую mebibyte или просто dd выбираю размер.)

Ответ 2

Как говорили другие, нет универсально правильного размера блока; то, что оптимально для одной ситуации, или одна часть аппаратного обеспечения может быть ужасно неэффективной для другой. Кроме того, в зависимости от работоспособности дисков может быть предпочтительнее использовать другой размер блока, чем тот, который является "оптимальным".

Одна вещь, которая довольно надежна на современном оборудовании, заключается в том, что размер блока по умолчанию 512 байтов, как правило, почти на порядок медленнее, чем более оптимальная альтернатива. Когда я сомневаюсь, я обнаружил, что 64K является довольно солидным современным дефолтом. Хотя 64K обычно не является оптимальным размером блока, по моему опыту он, как правило, намного эффективнее, чем по умолчанию. 64K также имеет довольно солидную историю надежности работы: вы можете найти сообщение из списка рассылки Eug-Lug около 2002 года, рекомендуя здесь размер блока 64K: http://www.mail-archive.com/[email protected]/msg12073.html

Для определения оптимального размера блока вывода я написал следующий script, который тестирует запись тестового файла 128M с dd в разных размерах блоков по умолчанию от 512 байт до максимум 64M. Будьте осторожны, этот script использует dd внутренне, поэтому используйте с осторожностью.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Просмотр на GitHub

Я тестировал только этот script в системе Debian (Ubuntu) и OSX Yosemite, поэтому, возможно, потребуется некоторое улучшение для работы с другими аксессуарами Unix.

По умолчанию команда создаст тестовый файл с именем dd_obs_testfile в текущем каталоге. Кроме того, вы можете указать путь к пользовательскому тестовому файлу, указав путь после имени script:

$ ./dd_obs_test.sh /path/to/disk/test_file

Вывод script - это список измеренных размеров блоков и их передача так:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Примечание: единица скорости передачи зависит от ОС)

Чтобы проверить оптимальный размер блока чтения, вы можете использовать более или менее тот же процесс, но вместо чтения из /dev/zero и записи на диск, вы читали из диск и записать в /dev/null. A script для этого может выглядеть так:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Просмотр на GitHub

Важным отличием в этом случае является то, что тестовый файл является файлом, написанным script. Не указывайте эту команду в существующем файле, или существующий файл будет перезаписан нулями!

Для моего конкретного оборудования я обнаружил, что 128K был самым оптимальным размером входного блока на жестком диске, а 32K был наиболее оптимальным на SSD.

Хотя этот ответ охватывает большинство моих выводов, я достаточно часто сталкивался с этой ситуацией, когда писал об этом в блоге: http://blog.tdg5.com/tuning-dd-block-size/ Вы можете найти более подробно о тестах, которые я там провел.

Ответ 3

Я обнаружил, что мой оптимальный размер блока составляет 8 МБ (что соответствует дисковому кешу?). Мне нужно было стереть (некоторые говорят: стирать) пустое место на диске перед тем, как создать его сжатый образ. Я использовал:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

Я экспериментировал со значениями от 4K до 100M.

После того, как я позволил некоторое время запустить dd, я убил его (Ctlr + C) и прочитал вывод:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

Поскольку dd отображает скорость ввода/вывода (в данном случае 19,1 МБ/с), легко увидеть, работает ли выбранное вами значение лучше, чем предыдущее или хуже.

Мои оценки:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s

Примечание. Для проверки размера дискового кэша/буфера вы можете использовать sudo hdparm -i/dev/sda

Ответ 4

Вы можете попробовать использовать dd-opt, небольшую полезность, которую я написал.

(Усовершенствования/уточнения приветствуются!)

Ответ 5

Это полностью зависит от системы. Вы должны поэкспериментировать, чтобы найти оптимальное решение. Попробуйте начать с bs=8388608. (Так как на жестких дисках Hitachi имеется 8 МБ кеш.)

Ответ 6

для лучшего использования используйте самый большой размер блока, который может разместить RAM (отправит меньше вызовов ввода-вывода в ОС)
для лучшей точности и восстановления данных установите размер блока в собственный размер сектора ввода

Поскольку dd копирует данные с параметром conv = noerror, sync, любые ошибки, с которыми он сталкивается, приведут к тому, что оставшаяся часть блока будет заменена на нуль-байты. Большие размеры блоков будут копироваться быстрее, но каждый раз, когда возникает ошибка, оставшаяся часть блока игнорируется.

источник