Одним из больших преимуществ формата хранения данных Parquet является it columnar. Если у меня есть "широкий" набор данных с сотнями столбцов, но мой запрос затрагивает лишь некоторые из них, тогда можно прочитать только те данные, которые хранят эти несколько столбцов, и пропустить остальные.
Предположительно эта функция работает, читая немного метаданных во главе файла паркета, который указывает места в файловой системе для каждого столбца. Затем читатель может искать на диске для чтения только необходимые столбцы.
Кто-нибудь знает, правильно ли работает исправитель паркета по умолчанию, который правильно реализует этот выборочный поиск на S3? Я думаю, он поддерживается S3, но существует большая разница между теоретической поддержкой и реализацией, которая должным образом использует эту поддержку.