написали стохастическое моделирование в Java, которое загружает данные из нескольких CSV файлов на диске (всего около 100 МБ) и записывает результаты в другой выходной файл (не так много данных, просто булево и несколько чисел). Существует также файл параметров, и для разных параметров ожидается, что распределение результатов моделирования будет изменяться. Чтобы определить правильные/наилучшие входные параметры, мне нужно запустить несколько симуляций, через несколько конфигураций входных параметров и посмотреть распределение выходов в каждой группе. Каждое симуляция занимает 0,1-10 минут в зависимости от параметров и случайности.
Я читал о Hadoop и задавался вопросом, может ли он помочь мне запустить множество симуляций; В ближайшем будущем у меня может быть доступ к примерно 8 сетевым настольным компьютерам. Если я правильно понимаю, функция карты может запустить мою симуляцию и выплюнуть результат, а редуктор может быть идентичным.
Вещь, о которой я беспокоюсь, - это HDFS, которая, похоже, предназначена для огромных файлов, а не для небольших CSV файлов (ни один из которых не будет достаточно большим, чтобы даже составить минимальный рекомендуемый размер блока 64 МБ). Кроме того, для каждого моделирования потребуется только идентичная копия каждого из файлов CSV.
Является ли Hadoop неправильным инструментом для меня?