Недавно я начал заниматься анализом данных, и за последний год я узнал немало (на данный момент, в основном, исключительно с использованием Python). Я считаю, что следующий шаг - начать тренироваться в MapReduce/Hadoop. Однако у меня нет формальной подготовки в области компьютерных наук, и поэтому я часто не совсем понимаю жаргон, который используется, когда люди пишут о Hadoop, поэтому мой вопрос здесь.
На что я надеюсь - это обзор Hadoop на верхнем уровне (если только что-то еще я не должен использовать?) и, возможно, рекомендация для какого-то учебника/учебника.
Если, например, я хочу распараллелить нейронную сеть, которую я написал на Python, с чего бы начать? Существует ли относительно стандартный метод реализации Hadoop с алгоритмом или для каждого решения очень специфична проблема?
Страница вики-страницы Apache описывает Hadoop как "структуру для запуска приложений на большом кластере, построенном из товарного оборудования". Но что это значит? Я слышал термин "Hadoop Cluster", и я знаю, что Hadoop - это Java. Значит ли это для приведенного выше примера, мне нужно будет изучить Java, настроить кластер Hadoop на, скажем, несколько серверов amazon, а затем Jython-ify мой алгоритм, прежде чем, наконец, заставить его работать в кластере с помощью Hadoop?
Спасибо за помощь!