Вначале я хотел бы описать свою текущую позицию и цель, которая хотела бы достичь.
Я исследователь, занимающийся машинным обучением. До сих пор прошли несколько теоретических курсов, охватывающих алгоритмы машинного обучения и анализа социальных сетей, и поэтому получили некоторые теоретические концепции, полезные для реализации алгоритмов машинного обучения и подачи в реальных данных.
На простых примерах алгоритмы работают хорошо, и время работы приемлемо, тогда как большие данные представляют собой проблему, если вы пытаетесь запустить алгоритмы на моем ПК. Что касается программного обеспечения, у меня достаточно опыта для реализации любого алгоритма из статей или дизайна, которые я сам использую на любом языке или в среде IDE (до сих пор использовали Matlab, Java с Eclipse,.NET...), но до сих пор не имеют большого опыта в настройке инфраструктуры. Я начал узнавать о Hadoop, базах данных NoSQL и т.д., Но не знаю, какая стратегия будет наилучшей с учетом ограничений времени обучения.
Конечная цель - создать рабочую платформу для анализа больших данных с упором на реализацию моих собственных алгоритмов машинного обучения и собрать все вместе в производство, готовые к решению полезного вопроса путем обработки больших данных.
Поскольку основное внимание уделяется внедрению алгоритмов машинного обучения, я хотел бы спросить, существует ли какая-либо существующая рабочая платформа, предлагающая достаточно ресурсов ЦП для подачи больших данных, загрузки собственных алгоритмов и просто обработки данных, не думая о распределенной обработке.
Тем не менее такая платформа существует или нет, я хотел бы получить картину достаточно большую, чтобы иметь возможность работать в команде, которая могла бы привести в действие всю систему, адаптированную к конкретным требованиям клиентов. Например, розничный торговец хотел бы проанализировать ежедневные покупки, чтобы все ежедневные записи были загружены в какую-то инфраструктуру, достаточно способную обрабатывать данные с помощью пользовательских алгоритмов машинного обучения.
Чтобы поставить все вышеперечисленное в простой вопрос: Как создать заказное решение для интеллектуального анализа данных для реальных проблем с основной ориентацией на алгоритмы машинного обучения и, по возможности, поместить его в производство, используя существующую инфраструктуру, и если а не проектировать распределенную систему (используя Hadoop или любую другую инфраструктуру).
Я был бы очень благодарен за любые советы или предложения по поводу книг или других полезных ресурсов.