Я знаю, что это не новая концепция в любом растяжении в R, и я просмотрел представление задач высокой производительности и параллельных вычислений. С учетом сказанного, я задаю этот вопрос с точки зрения невежества, поскольку у меня нет формального обучения в области компьютерных наук, и я полностью самоучитель.
Недавно я собрал данные из Твиттера Streaming API и в настоящее время сырой JSON сидит в текстовом файле 10 ГБ. Я знаю, что были большие успехи в адаптации R для обработки больших данных, так как бы вы справились с этой проблемой? Вот лишь несколько задач, которые я ищу:
- Чтение и обработка данных в фрейме данных
- Основной описательный анализ, включая интеллектуальную обработку текста (частые термины и т.д.).
- Черчение
Можно ли использовать R полностью для этого, или мне нужно будет написать некоторый Python для синтаксического анализа данных и бросить их в базу данных, чтобы сделать случайные выборки достаточно маленькими, чтобы вписаться в R.
Просто оцените любые советы или указатели, которые вы можете предоставить. Опять же, я не буду обижаться, если вы будете описывать решения на уровне 3-го класса.
Спасибо заранее.