Подтвердить что ты не робот

Есть ли хороший и простой способ визуализации высокоразмерных данных?

Может кто-нибудь, пожалуйста, скажите мне, есть ли хороший (простой) способ визуализации высокоразмерных данных? Мои данные в настоящее время - 21 размер, но я хотел бы посмотреть, насколько он плотный или редкий. Существуют ли методы для достижения этого?

4b9b3361

Ответ 2

Параллельные координаты являются популярным методом визуализации высокоразмерных данных.

Какая визуализация лучше всего подходит для ваших данных, в частности, будет зависеть от ее характеристик - насколько коррелированы разные размеры?

Ответ 3

Могучее слово, которое я бы искал, многомерное масштабирование. Это метод разработки проекции из высокомерного пространства в нижнее пространство (2 или 3 мер) таким образом, что точки, близкие по всему пространству, будут близки в проекции.

Он часто используется для визуализации вывода алгоритмов кластеризации (т.е. если ваши кластеры компактны в проекции MDS, есть хороший шанс, что они также находятся в полном объеме).

Изменить: это не обязательно поможет определить, плотны или скудны данные, потому что вы теряете масштаб в проекции, но он будет показывать, является ли он однородным или комковатым (возможно, это то, что вы имеете в виду).

Ответ 4

Не знаете, какие шаблоны вы хотели бы видеть из данных. t-SNE и его более быстрый вариант Barnes-Hut-SNE делают очень хорошую работу по визуализации групп связанных понятий для высокоразмерных данных. Он доступен через R.

Существует короткий учебник по использованию его для высокоразмерных данных с примерно 300 размерами. http://www.codeproject.com/Tips/788739/Visualizing-High-Dimensional-Vector-using-T-SNE-wi

Ответ 5

Взгляните на http://www.ggobi.org (туры, параллельные координаты, матрицы рассеяния) можно использовать для вещественных переменных. Также http://cranvas.org для более поздней версии. Пакет теурпа в R.

Ответ 6

Я искал способы визуализации высокоразмерных данных и нашел эту технику t-SNE, которая была эффективно использована. Могу также помочь другим.

Ответ 7

Попробуйте использовать http://hypertools.readthedocs.io/en/latest/.

HyperTools - это библиотека для визуализации и обработки высокоразмерных данных в Python.

Ответ 8

Звездная схема.

http://en.wikipedia.org/wiki/Star_schema

Хорошо работает для высокоразмерных данных.

Если мощность вашей таблицы фактов близка к размеру вашего размера, у вас плотные данные.

Если мощность вашей таблицы фактов меньше, чем размер ваших размеров, у вас есть разреженные данные.

В середине вы получите решение.

Ответ 9

curios.IT программное обеспечение для исследования данных предназначено для визуализации высокоразмерных данных: данные отображаются как набор трехмерных объектов (один для каждой группы данных), которая может отображать до 13 переменных одновременно. Связь между переменными данных и визуальными особенностями намного легче запомнить, чем с другими методами (такими как параллельные координаты).