Подтвердить что ты не робот

Изменить часовой пояс столбца даты и времени в pandas и добавить в качестве иерархического индекса

У меня есть данные с отметкой времени в UTC. Я хотел бы преобразовать часовой пояс этой метки времени в "US/Pacific" и добавить ее как иерархический индекс в pandas DataFrame. Я смог преобразовать метку времени как индекс, но он теряет форматирование часового пояса, когда я пытаюсь добавить его обратно в DataFrame, либо в виде столбца, либо как индекс.

>>> import pandas as pd
>>> dat = pd.DataFrame({'label':['a', 'a', 'a', 'b', 'b', 'b'], 'datetime':['2011-07-19 07:00:00', '2011-07-19 08:00:00', '2011-07-19 09:00:00', '2011-07-19 07:00:00', '2011-07-19 08:00:00', '2011-07-19 09:00:00'], 'value':range(6)})
>>> dat.dtypes
#datetime    object
#label       object
#value        int64
#dtype: object

Теперь, если я попытаюсь преобразовать серию непосредственно, я столкнулся с ошибкой.

>>> times = pd.to_datetime(dat['datetime'])
>>> times.tz_localize('UTC')
#Traceback (most recent call last):
#  File "<stdin>", line 1, in <module>
#  File "/Users/erikshilts/workspace/schedule-detection/python/pysched/env/lib/python2.7/site-packages/pandas/core/series.py", line 3170, in tz_localize
#    raise Exception('Cannot tz-localize non-time series')
#Exception: Cannot tz-localize non-time series

Если я конвертирую его в индекс, я могу манипулировать им как таймсерий. Обратите внимание, что индекс теперь имеет тихоокеанский часовой пояс.

>>> times_index = pd.Index(times)
>>> times_index_pacific = times_index.tz_localize('UTC').tz_convert('US/Pacific')
>>> times_index_pacific
#<class 'pandas.tseries.index.DatetimeIndex'>
#[2011-07-19 00:00:00, ..., 2011-07-19 02:00:00]
#Length: 6, Freq: None, Timezone: US/Pacific

Однако теперь я сталкиваюсь с проблемами, добавляющими индекс обратно в dataframe, поскольку он теряет свое форматирование в часовом поясе:

>>> dat_index = dat.set_index([dat['label'], times_index_pacific])
>>> dat_index
#                                      datetime label  value
#label                                                      
#a     2011-07-19 07:00:00  2011-07-19 07:00:00     a      0
#      2011-07-19 08:00:00  2011-07-19 08:00:00     a      1
#      2011-07-19 09:00:00  2011-07-19 09:00:00     a      2
#b     2011-07-19 07:00:00  2011-07-19 07:00:00     b      3
#      2011-07-19 08:00:00  2011-07-19 08:00:00     b      4
#      2011-07-19 09:00:00  2011-07-19 09:00:00     b      5

Вы заметите, что индекс возвращается в часовой пояс UTC вместо измененного часового пояса Тихого океана.

Как изменить часовой пояс и добавить его в качестве индекса в DataFrame?

4b9b3361

Ответ 1

Теперь это исправлено. Например, вы можете позвонить:

dataframe.tz_localize('UTC', level=0)

Однако вам придется называть это дважды для данного примера. (I.e., один раз для каждого уровня.)

Ответ 2

Если вы установите его как индекс, он автоматически преобразуется в индекс:

In [11]: dat.index = pd.to_datetime(dat.pop('datetime'), utc=True)

In [12]: dat
Out[12]:
                    label  value
datetime
2011-07-19 07:00:00     a      0
2011-07-19 08:00:00     a      1
2011-07-19 09:00:00     a      2
2011-07-19 07:00:00     b      3
2011-07-19 08:00:00     b      4
2011-07-19 09:00:00     b      5

Затем выполните tz_localize:

In [12]: dat.index = dat.index.tz_localize('UTC').tz_convert('US/Pacific')

In [13]: dat
Out[13]:
                          label  value
datetime
2011-07-19 00:00:00-07:00     a      0
2011-07-19 01:00:00-07:00     a      1
2011-07-19 02:00:00-07:00     a      2
2011-07-19 00:00:00-07:00     b      3
2011-07-19 01:00:00-07:00     b      4
2011-07-19 02:00:00-07:00     b      5

И затем вы можете добавить столбец меток в индекс:

Хммм, это определенно ошибка!

In [14]: dat.set_index('label', append=True).swaplevel(0, 1)
Out[14]:
                           value
label datetime
a     2011-07-19 07:00:00      0
      2011-07-19 08:00:00      1
      2011-07-19 09:00:00      2
b     2011-07-19 07:00:00      3
      2011-07-19 08:00:00      4
      2011-07-19 09:00:00      5

Хакерное обходное решение заключается в том, чтобы напрямую преобразовать уровень (datetime) (когда он уже является MultiIndex):

In [15]: dat.index.levels[1] = dat.index.get_level_values(1).tz_localize('UTC').tz_convert('US/Pacific')

In [16]: dat1
Out[16]:
                                 value
label datetime
a     2011-07-19 00:00:00-07:00      0
      2011-07-19 01:00:00-07:00      1
      2011-07-19 02:00:00-07:00      2
b     2011-07-19 00:00:00-07:00      3
      2011-07-19 01:00:00-07:00      4
      2011-07-19 02:00:00-07:00      5

Ответ 3

Другим способом, который работает в pandas 0.13.1, и решает проблему FrozenList, не может быть назначена проблема:

index.levels = pandas.core.base.FrozenList([
    index.levels[0].tz_localize('UTC').tz_convert(tz),
    index.levels[1].tz_localize('UTC').tz_convert(tz)
])

Много борьбы с этой проблемой, MultiIndex теряет tz и во многих других условиях.

Ответ 4

Обходной путь не работает, потому что уровни индекса иерархического индекса кажутся неизменяемыми (FrozenList неизменен).

Начиная с сингулярного индекса и добавления также не работает.

Создание lambda-функции, которая выполняет функцию Timestamp и преобразует каждый член серии, возвращаемой to_datetime(), также не работает.

Есть ли способ создать часовые пояса, а затем вставить их в dataframe/сделать их индексом?

joined_event_df = joined_event_df.set_index(['pandasTime'])
joined_event_df.index = joined_event_df.index.get_level_values(1).tz_localize('UTC').tz_convert('US/Central')
# we have tz-awareness above this line
joined_event_df = joined_event_df.set_index('sequence', append = True)
# we lose tz-awareness in the index as soon as we add another index
joined_event_df = joined_event_df.swaplevel(0,1)