Я рассматриваю дизайн кластера Cassandra.
Вариант использования будет хранить большие строки крошечных образцов для данных временных рядов (с использованием KairosDB), данные будут почти неизменными (очень редкое удаление, без обновлений). Эта часть работает очень хорошо.
Однако через несколько лет данные будут довольно большими (он достигнет максимального размера в несколько сотен терабайт - более одного петабайта с учетом коэффициента репликации).
Мне известно, что мы не рекомендуем использовать более 5 Тбайт данных на Cassandra node из-за высоких нагрузок ввода-вывода во время комбайнов и ремонта (что, по-видимому, уже довольно велико для вращающихся дисков). Поскольку мы не хотим создавать целый центр обработки данных с сотнями узлов для этого варианта использования, я изучаю, будет ли это работать, чтобы иметь серверы с высокой плотностью на вращающихся дисках (например, не менее 10 ТБ или 20 ТБ на node с использованием вращающихся дисков в RAID10 или JBOD серверы будут иметь хороший процессор и оперативную память, поэтому система будет привязана к вводу/выводу).
Количество чтения/записи в Кассандре в секунду будет управляться небольшим кластером без какого-либо стресса. Я также могу упомянуть, что это не высокопроизводительная транзакционная система, а хранилище данных для хранения, поиска и анализа, и данные будут почти неизменными - так что даже если уплотнение или ремонт/реконструкция занимают несколько дней с нескольких серверов на в то же время это, вероятно, не будет проблемой вообще.
Мне интересно, есть ли у некоторых людей обратная связь с опытом для высокой плотности сервера, используя вращающиеся диски и какую конфигурацию вы используете (версия Cassandra, размер данных для node, размер диска для node, дисковая конфигурация: JBOD/RAID, тип оборудования).
Заранее благодарим за отзыв.
С уважением.