У меня есть набор данных размером 22 ГБ. Я хотел бы обработать его на своем ноутбуке. Конечно, я не могу загрузить его в память.
Я использую много sklearn, но для гораздо меньших наборов данных.
В этих ситуациях классический подход должен быть чем-то вроде.
Только чтение части данных → Частичная поездка вашей оценки → удалить данные → прочитать другую часть данных → продолжить тренировку вашего оценщика.
Я видел, что некоторый алгоритм sklearn имеет метод частичной подгонки, который позволяет нам обучать оценку с помощью различных подвыборки данных.
Теперь мне интересно, почему так легко сделать это в sklearn? Я ищу что-то вроде
r = read_part_of_data('data.csv')
m = sk.my_model
`for i in range(n):
x = r.read_next_chunk(20 lines)
m.partial_fit(x)
m.predict(new_x)
Может быть, sklearn - не самый подходящий инструмент для такого рода вещей? Дайте мне знать.