У меня есть проблема, когда мне нужно очень быстро загрузить большое количество данных (5+ миллиардов строк) в базу данных (в идеале менее 30 минут, но быстрее), и мне недавно предложили заглянуть в postgresql (I не удалось с mysql и смотрел на hbase/cassandra). Моя настройка: у меня есть кластер (в настоящее время 8 серверов), который генерирует много данных, и я думал о запуске баз данных локально на каждом компьютере в кластере, который он пишет быстро локально, а затем в конце (или в процессе генерации данных) сливаются вместе. Данные не в каком-либо порядке, поэтому мне не важно, на каком конкретном сервере он включен (пока он в конечном итоге там).
Мои вопросы: есть ли хорошие учебные пособия или места, чтобы узнать о автоматическом очертании PostgreSQL (я нашел результаты таких фирм, как sykpe, делающие автоматическое очертание, но не учебники, я хочу играть с этим сам)? Это то, что я пытаюсь сделать возможным? Поскольку данные не в каком-либо порядке, я собирался использовать автоинкрементный идентификационный номер, это вызовет конфликт, если данные будут объединены (это уже не большая проблема)?
Обновление: идея Фрэнка ниже вида устранила проблему автоинкрементного конфликта, о которой я спрашивал. Вопрос в основном в настоящее время, как я могу узнать об автоматическом очертании и будет ли он поддерживать распределенные загрузки данных на несколько серверов?