Это продолжение вопроса Почему BigQuery не работает также и на небольших наборах данных.
Предположим, что у меня есть набор данных, который составляет ~ 1M строк. В текущей базе данных, которую мы используем (mysql), агрегированные запросы выполнялись бы довольно медленно, возможно, с ~ 10 или более сложными агрегатами. В BigQuery требуемое время инициализации может занять примерно 3 секунды, лучше, чем в mysql, но не тот инструмент для задания, если нам нужно вернуть запросы в 1 с или ниже.
Тогда мой вопрос заключается в том, что было бы хорошей альтернативой использованию BigQuery для выполнения агрегированных запросов на наборах данных среднего размера, таких как 1-10M строк? Пример запроса может быть:
SELECT studio, territory, count(*)
FROM mytable
GROUP BY studio, territory
ORDER BY count(*) DESC
Возможные решения, о которых я думал, - это ElasticSearch (https://github.com/NLPchina/elasticsearch-sql) и Redshift (postgres работает слишком медленно). Что было бы хорошим вариантом, который можно запросить через SQL?
Примечание. Я не ищу, почему и как должен использоваться BQ. Я ищу альтернативу для наборов данных под строками 10M, где запрос может быть возвращен менее чем за 1 секунду.