У меня есть 10M + фотографии, сохраненные в локальной файловой системе. Теперь я хочу пройти через каждый из них, чтобы проанализировать двоичный файл фотографии, чтобы увидеть, если это собака. Я в основном хочу сделать анализ в кластерной среде hadoop. Проблема в том, что как я должен создать вход для метода карты? скажем, в методе карты,
new FaceDetection(photoInputStream).isDog()
- все это основная логика анализа.
В частности,
Должен ли я загружать все фотографии в HDFS
? Предположим, что да,
-
Как я могу использовать их в методе
map
? -
Можно ли сделать ввод (в
map
) текстовым файлом, содержащим весь путь фотографии (вHDFS
), с каждой строкой, а в методе карты - загрузить двоичный файл например:photoInputStream = getImageFromHDFS(photopath);
(На самом деле, какой правильный способ загрузить файл из HDFS во время выполнения метода карты?)
Кажется, я пропустил некоторые знания об основном принципе для hadoop
, map/reduce
и HDFS
, но можете ли вы, пожалуйста, указать мне на этот вопрос, спасибо!