Redshift позволяет назначать несколько столбцов как столбцы SORTKEY
, но большая часть документации лучших практик написана так, как если бы был только один SORTKEY.
Если я создаю таблицу с SORTKEY (COL1, COL2)
, значит ли это, что все столбцы хранятся отсортированными по COL1, а затем COL2? Или, может быть, поскольку это хранилище столбцов, каждый столбец хранится в другом порядке? То есть COL1 в порядке COL1, COL2 в порядке COL2, а остальные столбцы неупорядочены?
Моя ситуация в том, что у меня есть таблица с (среди прочих) столбцом type_id и timestamp. Данные поступают примерно в порядке времени. Большинство запросов объединены с/ограничены как type_id, так и timestamp. Обычно предложения type_id более специфичны, а это означает, что гораздо больший процент строк можно исключить, посмотрев предложение type_id, чем глядя на предложение timestamp. type_id - это DISTKEY по этой причине. Я пытаюсь понять плюсы и минусы SORTKEY (type_id)
, SORTKEY (stamp)
, SORTKEY (type_id,stamp)
, SORTKEY (stamp,type_id)
.
Спасибо.