Учитывая фрейм данных, я хочу получить дублированные индексы, которые не имеют повторяющихся значений в столбцах, и посмотреть, какие значения отличаются.
В частности, у меня есть этот dataframe:
import pandas as pd
wget https://www.dropbox.com/s/vmimze2g4lt4ud3/alt_exon_repeatmasker_intersect.bed
alt_exon_repeatmasker = pd.read_table('alt_exon_repeatmasker_intersect.bed', header=None, index_col=3)
In [74]: alt_exon_repeatmasker.index.is_unique
Out[74]: False
И некоторые индексы имеют повторяющиеся значения в 9-м столбце (тип повторяющегося элемента ДНК в этом месте), и я хочу знать, каковы различные типы повторяющихся элементов для отдельных местоположений (каждый индекс = местоположение генома).
Я предполагаю, что для этого потребуется какой-то groupby
и, надеюсь, какой-нибудь groupby
ниндзя может мне помочь.
Чтобы упростить еще больше, если у нас есть только индекс и тип повтора,
genome_location1 MIR3
genome_location1 AluJb
genome_location2 Tigger1
genome_location3 AT_rich
Таким образом, я хотел бы видеть все повторяющиеся индексы и их повторяющиеся типы:
genome_location1 MIR3
genome_location1 AluJb
EDIT: добавленный пример игрушки