Я инженер Hadoop, который интересуется машинным обучением и интеллектуальным анализом данных. Использование данных и современные инструменты, такие как Spark (и особенно MLlib), анализируя терабайты данных становится легким и приятным. До сих пор я использую API Python для Spark (PySpark) и довольно доволен этим.
Однако недавно появился новый сильный игрок в научных вычислениях - Юлия. С его компиляцией JIT и встроенным parallelism (между прочим) он может стать хорошим конкурентом традиционным инструментам. Поэтому мне интересно, если в какой-то момент я переключусь на Юлию, какие у меня варианты использовать ее поверх существующего стека Hadoop? Существуют ли привязки или мосты, позволяющие запускать сценарии Julia и все еще использовать локацию данных HDFS?
РЕДАКТИРОВАТЬ. Чтобы ясность: я не спрашиваю, какие инструменты лучше всего, не сравнивая Julia (или Hadoop) с другими инструментами и не рекламируя какой-либо вычислительный стек. Мой вопрос касается проектов, которые могут помочь в интеграции двух технологий. Никаких мнений, никаких длительных обсуждений - просто ссылки на проекты и краткое описание.