У меня есть dataframe с повторяющимися значениями в столбце A. Я хочу сбросить дубликаты, сохраняя строку с самым высоким значением в столбце B.
Итак, это:
A B
1 10
1 20
2 30
2 40
3 10
Должно получиться следующее:
A B
1 20
2 40
3 10
Wes добавил некоторые полезные функции, чтобы сбросить дубликаты: http://wesmckinney.com/blog/?p=340. Но AFAICT, он предназначен для точных дубликатов, поэтому нет упоминаний о критериях выбора строк.
Я предполагаю, что, возможно, это простой способ сделать это - может быть, так же просто, как сортировка данных, прежде чем выпустить дубликаты, но я не знаю, как организовать собственную внутреннюю логику достаточно хорошо, чтобы понять это. Любые предложения?