Я использую R для анализа данных, и я очень доволен этим. Однако очистка данных может быть немного проще. Я думаю об изучении другого языка, подходящего для этой задачи. В частности, я ищу инструмент для использования необработанных данных, удаления ненужных переменных или наблюдений и форматирования его для простой загрузки в R. Содержание будет в основном числовыми и строковыми данными, в отличие от многострочного текста.
Я рассматриваю комбинацию awk/sed по сравнению с Python. (Я признаю, что Perl будет другим вариантом, но, если бы я собирался изучить еще один полный язык, Python кажется лучшим и более расширяемым выбором.)
Преимущество sed/awk в том, что его быстрее научить. Недостатком является то, что эта комбинация не такая расширяемая, как Python. В самом деле, я мог бы представить себе некоторую "ползучесть миссии", если бы узнал Python, что было бы хорошо, но не моя цель.
Другим соображением, которое у меня было, являются приложения к большим наборам данных. Насколько я понимаю, awk/sed работают поочередно, в то время как Python обычно выводит все данные в память. Это может быть еще одним преимуществом для sed/awk.
Есть ли другие проблемы, которые мне не хватает? Любой совет, который вы можете предложить, будет оценен по достоинству. (Я включил тег R для пользователей R, чтобы предлагать их рекомендации по очистке.)