Подтвердить что ты не робот

Основные навыки Ученых-Данных

Каковы соответствующие навыки в арсенале Ученого Данных? С появлением новых технологий каждый день, как выбрать и выбрать необходимое?

Несколько идей, связанных с этим обсуждением:

  • Зная SQL и использование базы данных, такой как MySQL, PostgreSQL был отличным до появления NoSql и нереляционных баз данных. MongoDB, CouchDB и т.д. Становятся популярными для работы с данными веб-масштаба.
  • Знание инструмента статистики, такого как R, достаточно для анализа, но для создания приложений, возможно, потребуется добавить в список Java, Python и т.д.
  • Теперь данные поступают в виде текста, URL-адресов, мультимедиа, чтобы назвать несколько, и существуют различные парадигмы, связанные с их манипуляциями.
  • Что относительно кластерных вычислений, параллельных вычислений, облака, Amazon EC2, Hadoop?
  • Регрессия OLS теперь имеет искусственные нейронные сети, случайные леса и другие относительно экзотические машинные исследования/альдегирование данных. для компании

Мысли?

4b9b3361

Ответ 1

Чтобы процитировать из введения в тезис Hadley phd:

Сначала вы получаете данные в форме, которая вы можете работать с... Во-вторых, вы распечатать данные, чтобы понять, что продолжается... В-третьих, вы повторяете между графикой и моделями для создания краткое количественное резюме данные... Наконец, вы оглядываетесь назад что вы сделали, и созерцайте какие инструменты вам нужно сделать лучше будущее

Шаг 1 почти наверняка включает в себя сбор данных и может включать доступ к базе данных или веб-скребок. Знание людей, создающих данные, также полезно. (Я регистрирую это в разделе "networking".)

Шаг 2 означает навыки визуализации/построения графика.

Шаг 3 означает статистику или навыки моделирования. Поскольку это тупо широкая категория, способность делегировать моделеру также является полезным навыком.

Последний шаг в основном касается умственных навыков, таких как самоанализ и навыки управления.

В вопросе также упоминались навыки работы с программным обеспечением, и я согласен, что они очень удобны. Software Carpentry имеет хороший список всех основных навыков программного обеспечения, которые вы должны иметь.

Ответ 2

Просто бросьте некоторые идеи для других, чтобы изложить:

При некотором смехотворно высоком уровне абстракции вся работа с данными включает в себя следующие шаги:

  • Сбор данных
  • Хранение/извлечение данных
  • Манипуляция данными/Синтез/Моделирование
  • Отчет о результатах
  • Рассказ

Как минимум ученый с данными должен обладать, по крайней мере, некоторыми навыками в каждой из этих областей. Но в зависимости от специальности можно потратить гораздо больше времени в ограниченном диапазоне.

Ответ 3

JD отличные, и для немного большей глубины в этих идеях читайте Майкла Дрисколла отличный пост Три сексуальных навыка гиков данных:

  • Мастерство # 1: статистика (изучение)
  • Мастерство # 2: Мутирование данных (Страдание)
  • Мастерство № 3: Визуализация (Рассказ)

Ответ 4

В dataist вопрос рассматривается в общем виде с хорошей диаграммой Венна:

venn diagram

Ответ 5

JD ударил его по голове: Storytelling. Хотя он забыл ДРУГОЙ важный рассказ: рассказ о том, почему вы использовали < insert fancy technique здесь > . Возможность ответить на этот вопрос - это самый важный навык, который вы можете развивать.

Остальное - просто молотки. Не поймите меня неправильно, что-то вроде R отлично. R - это целый мешок молотков, но важный бит - это знать, как использовать ваши молотки и еще что-то полезное.

Ответ 6

Я думаю, что важно иметь команду для коммерческой базы данных или двух. В финансовом мире, с которым я консультируюсь, я часто вижу DB/2 и Oracle на большом железе и SQL Server на распределенных серверах. Это в основном означает возможность чтения и записи кода SQL. Вы должны иметь возможность извлекать данные из хранилища и в свой аналитический инструмент.

Что касается аналитических инструментов, я считаю, что R становится все более важным. Я также считаю, что очень полезно знать, как использовать хотя бы один другой пакет статистики. Это может быть SAS или SPSS... это действительно зависит от компании или клиента, за которую вы работаете, и от того, что они ожидают.

Наконец, вы можете получить невероятное представление обо всех этих пакетах и ​​по-прежнему не очень ценны. Крайне важно иметь достаточный объем экспертных знаний в конкретной области и иметь возможность сообщать соответствующим пользователям и менеджерам о проблемах, связанных с вашим анализом, а также о ваших результатах.

Ответ 7

Матричная алгебра - мой лучший выбор

Ответ 8

  • Возможность совместной работы.

Великая наука, практически в любой дисциплине, редко делается людьми в наши дни.

Ответ 9

Существует несколько тем для компьютерных наук, которые полезны ученым-ученым, многие из которых были упомянуты: распределенные вычисления, операционные системы и базы данных.

Анализ алгоритмов, который понимает потребность времени и пространства в вычислении, является одной из самых важных проблем в области компьютерной науки для данных ученые. Это полезно для внедрения эффективного кода, от методов статистического обучения до сбора данных; и определения ваших вычислительных потребностей, таких как объем оперативной памяти или количество узлов Hadoop.

Ответ 10

Терпение - как для получения результатов разумным образом, так и для того, чтобы вернуться назад и изменить его для того, что было "на самом деле".

Ответ 11

Изучите линейную алгебру на MIT Open course ware 18.06 и замените свое исследование на книгу "Введение в линейную алгебру". Линейная алгебра является одним из основных наборов навыков в аналитике данных в дополнение к навыкам, упомянутым выше.