Подтвердить что ты не робот

Сохранение частей конвейера

Некоторые из моих функций в модели могут занять некоторое время, чтобы сгенерировать, поэтому быстро экспериментировать с несколькими функциями и параметрами - это хорошая идея сохранить их на диске для последующего использования.

Как конкретный пример (взятый из здесь), предположим, что у меня есть следующий конвейер:

pipeline = Pipeline([
  ('extract_essays', EssayExractor()),
  ('features', FeatureUnion([
    ('ngram_tf_idf', Pipeline([
      ('counts', CountVectorizer()),
      ('tf_idf', TfidfTransformer())
    ])),
    ('essay_length', LengthTransformer()),
    ('misspellings', MispellingCountTransformer())
  ])),
  ('classifier', MultinomialNB())
])

И я хотел бы изменить CountVectorizer() на CountVectorizer(max_features=1000), тогда только CountVectorizer, MultinomialNB нужно пересчитать, поскольку параметр или преобразование до его изменения.

Может ли это быть реализовано каким-то образом?

4b9b3361

Ответ 1

У меня был некоторый успех, делающий такие вещи с Pachyderm. У этого есть несколько git -like cli, которые позволят вам сохранить ваш рабочий процесс. В репо обратите внимание на