У меня есть корпус, который содержит около 8 миллионов статей новостей, мне нужно получить представление TFIDF из них как разреженной матрицы. Я смог сделать это, используя scikit-learn для относительно меньшего количества образцов, но я считаю, что он не может использоваться для такого огромного набора данных, поскольку он сначала загружает входную матрицу в память и что это дорогостоящий процесс.
Кто-нибудь знает, какой был бы лучший способ извлечения векторов TFIDF для больших наборов данных?