Мне нужно запустить различные методы машинного обучения в большом наборе данных (10-100 миллиардов записей) Проблемы в основном связаны с извлечением текста/извлечением информации и включают различные методы ядра, но не ограничиваются ими (мы используем некоторые байесовские методы, загрузку, повышение градиента, деревья регрессии - много разных проблем и способы их решения).
Какая была бы лучшая реализация? Я имею опыт работы в ML, но не имею большого опыта, как это сделать для огромных наборов данных Существуют ли расширяемые и настраиваемые библиотеки Machine Learning, использующие инфраструктуру MapReduce Сильное предпочтение С++, но Java и python в порядке Amazon Azure или собственный центр обработки данных (мы можем себе это позволить)?