У меня есть много файлов журнала gzip'd в s3, у которых есть 3 типа строк журнала: b, c, i. я и c являются одноуровневыми json:
{"this":"that","test":"4"}
Тип b глубоко вложен json. Я столкнулся с этим gist, говорящим о компиляции банку, чтобы сделать эту работу. Поскольку мои навыки java меньше звездного, я действительно не знал, что делать дальше.
{"this":{"foo":"bar","baz":{"test":"me"},"total":"5"}}
Так как типы я и c не всегда находятся в одном порядке, это затрудняет определение всего в выражении regex. Является ли обработка JSON (в файле gzip'd) возможной с помощью Pig? Я использую ту, какая версия свиньи построена на экземпляре Amazon Elastic Map Reduce.
Это сводится к двум вопросам: 1) Могу ли я разобрать JSON с Pig (и если да, то как)? 2) Если я могу разобрать JSON (из файла журнала gzip'd), могу ли я разобрать вложенные объекты JSON?