Я пытаюсь создать N сбалансированных случайных подвыборки моего большого несбалансированного набора данных. Есть ли способ сделать это просто с помощью scikit-learn/ pandas или я должен сам его реализовать? Любые указатели на код, который делает это?
Эти подвыборки должны быть случайными и могут перекрываться, когда я подаю каждый отдельный классификатор в очень большой ансамбль классификаторов.
В Weka есть инструмент под названием spreadsubsample, есть ли эквивалент в sklearn? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample
(Я знаю о взвешивании, но это не то, что я ищу.)