Я пытаюсь улучшить свой рабочий процесс, и я надеюсь, что сообщество сможет предоставить информацию, поскольку я относительно новичок в "больших данных".
Обычно я загружаю несколько фреймов данных из общедоступных источников, которые могут быть связаны друг с другом. После выполнения нескольких кадров данных я делаю различные шаги обработки данных (например, фильтрацию, сортировку, агрегирование, пользовательские вычисления) перед выполнением регрессионного анализа и/или других выводных статистических данных по моему окончательному набору данных.
В частности, какую стратегию вы бы порекомендовали:
- Загрузка всех данных в виде отдельных файлов из Интернета на локальный компьютер, а затем использование R для его обработки непосредственно (как я делал). Потенциальная проблема, которую я вижу в этом, заключается в том, что все работает в рабочей среде Rs, что может замедлить процесс и сбой моей машины.
или
- Загрузка всех данных в виде отдельных файлов из Интернета на локальный компьютер, создание базы данных с
sqldf
на локальном компьютере и использование последующих запросов с помощьюsqldf
для вытягивания и агрегирования информации из этой базы данных до делая окончательный анализ данных в R. Потенциальная проблема, которую я вижу в этом, заключается в том, что база данных, состоящая из нескольких таблиц/данных, созданных на моей локальной машине сsqldf
, больше по размеру, чем просто сохранение нескольких отдельных CSV файлов.
Мне очень знакомы статистические методы, но я, по общему признанию, имею несколько пробелов в знаниях, когда дело касается управления базами данных и операций с сервером. Я знаком с гайками и болтами SQL, как языком, и я знаю, как использовать sqldf
с файлами данных, работающими в рабочей среде R. Тем не менее, я, откровенно говоря, не знаю, какую выгоду вы предлагаете, просто изучая, как использовать базовые функции R для фильтрации, сортировки и агрегирования данных. Кроме того, я прочитал несколько веб-страниц об ажиотаже спаривания SQL Server с R, но Im unsure, если это хороший вариант для меня, так как я запускаю все локально.
Какие-нибудь советы для этого новичка о том, как улучшить обработку и аналитику данных путем объединения R с некоторой реализацией SQL?
Заранее благодарю вас!