TL; DR Если загруженные поля в Pandas DataFrame содержат сами документы JSON, как их можно обрабатывать с помощью Pandas?
В настоящее время я напрямую сбрасываю результаты json/dictionary из библиотеки Twitter (twython) в коллекцию Mongo (называемую здесь пользователями).
from twython import Twython
from pymongo import MongoClient
tw = Twython(...<auth>...)
# Using mongo as object storage
client = MongoClient()
db = client.twitter
user_coll = db.users
user_batch = ... # collection of user ids
user_dict_batch = tw.lookup_user(user_id=user_batch)
for user_dict in user_dict_batch:
if(user_coll.find_one({"id":user_dict['id']}) == None):
user_coll.insert(user_dict)
После заполнения этой базы данных я прочитал документы в Pandas:
# Pull straight from mongo to pandas
cursor = user_coll.find()
df = pandas.DataFrame(list(cursor))
Что работает как магия:
Я хотел бы иметь возможность калечить поле "статус" Pandas (прямое обращение к атрибутам). Есть ли способ?
EDIT: что-то вроде df ['status: text']. Статус имеет такие поля, как "текст", "created_at". Одним из вариантов может быть сглаживание/нормализация этого json-поля, например этот запрос на растяжение Wes McKinney работал над.