У меня есть некоторый R-код, который мне нужен для подключения к python. Тем не менее, R magic data.frame и ddply не позволяют мне найти хороший способ сделать это в python.
Пример данных (R):
x <- data.frame(d=c(1,1,1,2,2,2),c=c(rep(c('a','b','c'),2)),v=1:6)
Пример расчета:
y <- ddply(x, 'd', transform, v2=(v-min(v))/(max(v)-min(v)))
Пример вывода:
d c v v2
1 1 a 1 0.0
2 1 b 2 0.5
3 1 c 3 1.0
4 2 a 4 0.0
5 2 b 5 0.5
6 2 c 6 1.0
Итак, вот мой вопрос для питонистов: как бы вы сделали то же самое? У вас есть структура данных с несколькими важными измерениями.
Для каждого (c) и каждого (d) вычислить (v-min (v))/(max (v) -min (v))) и сопоставить его с соответствующей (d, c) парой.
Не стесняйтесь использовать любые структуры данных, которые вы хотите, до тех пор, пока они быстрые на достаточно больших наборах данных (те, которые соответствуют памяти).