У меня есть таблица паркета с одним из столбцов
array < struct < col1, col2,.. colN →
Может запускать запросы к этой таблице в Hive с использованием синтаксиса LATERAL VIEW.
Как прочитать эту таблицу в RDD и, что еще важнее, как фильтровать, сопоставлять и т.д. эту вложенную коллекцию в Spark?
Не удалось найти ссылки на это в документации Spark. Заранее благодарим за любую информацию!
пс. Войлок может быть полезен, чтобы дать некоторую статистику на столе. Количество столбцов в основной таблице ~ 600. Количество строк ~ 200 м. Количество "столбцов" в вложенной коллекции ~ 10. Среднее количество записей в вложенной коллекции ~ 35.