В настоящее время я приступаю к проекту, который включает в себя сканирование и обработку огромных объемов данных (сотни концертов), а также их разработку для извлечения структурированных данных, распознавание имен, дедупликацию, классификацию и т.д.
Я знаком с инструментами ML как из Java, так и из мира Python: Lingpipe, Mahout, NLTK и т.д. Однако, когда дело доходит до выбора платформы для такой крупномасштабной проблемы, мне не хватает опыта, чтобы решить Java или Python.
Я знаю, что это звучит как неопределенный вопрос, но я ищу общий совет по выбору Java или Python. JVM предлагает лучшую производительность (?) Над Python, но такие библиотеки, как Lingpipe и т.д., Соответствуют экосистеме Python? Если бы я отправился на этот Python, насколько легко было бы масштабировать его и управлять им на нескольких машинах и т.д.
С кем мне пойти и почему?