Резервное копирование: Amazon S3 или Glacier - много маленьких файлов?

Я пытаюсь понять сложную модель ценообразования ледника Амазонки. Я не хочу хранить огромное количество данных, несколько ГБ говорят 10. Я надеюсь, что никогда не будет загружать файлы, и если мне нужно, мне все равно, сколько времени это займет.

Есть ли стоимость загружаемого файла? Это дешевле, чтобы замаскировать множество крошечных файлов и загружать их в несколько кусков или 10 000 говорят, что изображения не имеют значения? (не может получить прямой ответ на это во время поиска)

Можно ли запросить загрузку целого архива/ведра или файл по файлу?

Ответ 1

Подробная информация о ценах для S3 доступна здесь. Особенности доступных функций API: здесь.

Для S3 вы в основном взимаете плату за пропускную способность (байты отправлены TO S3), ширина полосы пропускания (полученные байты FROM S3) и память (байты IN S3). Вы также платите за количество и тип вызовов API.

Итак, если вы загрузите 10 ГБ данных на S3 в 10 000 1 МБ файлов, сохраните их в течение месяца, а затем загрузите каждый из файлов один раз, вы будете платить:

$0.00 для загрузки полосы пропускания (это бесплатно)
$0,10 для 10 000 запросов PUT для загрузки файлов
$0.95 для хранения 10 ГБ в течение месяца
$1.08 для ширины загрузки для 10 ГБ (первый бесплатный, затем $0,12/ГБ).
$0.01 для 10 000 запросов GET для загрузки файлов

Это $2.14. Если вы загрузили и загрузили один раз, но сохранили данные за год, только стоимость хранения увеличилась бы до 12 * 0,95 долл. США, или 11,40 доллара США. Если ваши файлы усредняли всего 100 КБ, поэтому у вас было 100 000 из них, вы заплатили бы в 10 раз больше за запросы PUT и GET или $1,10 вместо $0,11.

Вы можете загружать и загружать только один файл за операцию. Если вы объединили свои файлы в один с помощью Zip, вы сохранили бы только меньшее количество операций, которые, как вы можете видеть, довольно дешевы для начала.

Здесь есть одна причуда. Я уверен, что вы взимаете плату за использование полосы пропускания при загрузке и загрузке, включая заголовки запросов, а не только те, которые содержат ваши данные. Поэтому, если ваши файлы были действительно крошечными, заголовки запросов могут стать значительными, возможно, столько же, сколько и сами файлы. В этом случае затраты на пропускную способность удвоятся.

Цены на ледники сложнее, и я никогда не использовал его сам. В основном это снижает затраты на хранение почти в десять раз, оставляя другие затраты одинаковыми и добавляя затраты на архивирование и восстановление на объект. Эти затраты кажутся значительными, если у вас много мелких объектов, вам нужно получить много файлов за раз или часто получать файлы. Ледник кажется лучшим, когда у вас много данных (терабайт или больше, а не только гигабайт), но мало операций. Учитывая, что у вас всего 10 ГБ данных, S3 настолько недорог, что, похоже, не стоит рассматривать ледник.

Наконец, AWS имеет свободный уровень использования в течение первого года, который, похоже, будет покрывать все ваши расходы, за исключением половины расходов на хранение.

Ответ 2

Я знаю, что это немного устарело, но вы все равно можете найти мой ответ полезным (я надеюсь). Другой ответ основан на S3, который, на мой взгляд, не был вашим вопросом.

Ледник предназначен для редкого доступа к файлам. Имея это в виду, они как бы наказывают вас, если вам нужно получить сразу несколько файлов. В вашем конкретном случае я бы предложил загрузить 10.000 отдельных файлов, а не разрешать 100 ZIP файлов по 100 файлов. Причина очень проста. Ледник позволит вам бесплатно скачать только 5% от общего архива и ежедневно распределяется пропорционально. Так, например, если вам нужно загрузить 10 фотографий, которые вы сделали в выходные, вы сможете получить эти 10 фотографий бесплатно, если они будут распространены в хранилище. С другой стороны, если у вас есть ZIP файл с 100 фотографиями внутри, вы будете вынуждены загрузить этот почтовый индекс, который, вероятно, составит более 5% от общего архива, что означает, что вы будете платить некоторые сборы за извлечение.

Единственная причина, по которой имеет смысл загружать меньше файлов, заключается в том, чтобы избежать высоких запросов на загрузку (10.000 файлов обычно означают 10.000 запросов). Запросы начисляются в размере 0,05 долл. США за 1000 долл. США. Эти сборы намного ниже, чем плата за получение (с учетом установленных ограничений), поэтому я всегда рекомендую загружать отдельные файлы. Конечно, вы можете архивировать файлы, имеющие смысл быть вместе.

Издержки на изъятие очень сложны в леднике Амазонки. У них есть хорошее объяснение здесь: http://aws.amazon.com/glacier/faqs/#How_much_data_can_I_retrieve_for_free Но даже там вам нужно будет обратить внимание на вычисления, чтобы получить четкое представление о том, как оплачиваются расходы.

Относительно этого вопроса: Могу ли я запросить загрузку целого архива/ведра или файл по файлу?

Запросы идут по файлу, хотя вы можете выбрать сразу несколько файлов и загрузить их полностью.

Решение о том, следует ли использовать S3 или Glacier, зависит от ваших потребностей в доступе к файлам. Если вам понадобится доступ к вашим файлам, тогда вам будет дан ледник. В противном случае для 10 ГБ S3 все еще может быть дешевым и быть более гибким, чем ледник. В моем случае я считаю, что семейные фотографии очень ценны. Вот почему у меня есть резервная копия 100 ГБ на леднике со всеми моими семейными фотографиями. Я не собираюсь обращаться к нему, если в доме нет какой-то катастрофы. В этом случае, я думаю, я бы не возражал, чтобы получить стоимость поиска, если это спасло то, что мне действительно нужно. Но это только я.

Ответ 3

Лучше использовать несколько больших файлов, чем много маленьких

Существует два подхода к размещению файлов в леднике Амазонки. Вы либо напрямую взаимодействуете с хранилищами, либо используете S3 в качестве интерфейса.

Я использую S3 (и консоль управления Amazon), чтобы я мог видеть содержимое архива и в то же время хранить его дешево в Glacier.

Этот подход имеет один недостаток - поскольку хранение любой информации в Glacier имеет некоторые служебные данные (которые вы также платите), тогда логически точка безубыточности. До снижения цены на 2014-04 я сделал расчет, а критический размер составил около 16 кБ, хранение меньших файлов в Glacier (с использованием AWS S3 в качестве интерфейса) было дороже, чем хранение только на S3. При снижении цен на хранилище S3 (ледник не изменился) точка безубыточности еще выше.

Я предполагаю, что даже без S3 в качестве интерфейса, ситуация будет похожа, хотя и немного более дружелюбна к меньшим файлам.