Что такое интеллектуальный анализ данных с точки зрения разработчика?

Я могу найти техническое объяснение того, что интеллектуальный анализ данных находится в книге или в Википедии, но мне интересно, в чем именно заключается развитие? Это больше о том, как использовать инструменты или больше о написании инструментов? Разве это действительно сильно отличается от других областей, когда дело доходит до R & D?

Ответ 1

Data Mining - это процесс обнаружения интересных шаблонов в больших объемах данных. Это не запрос данных, что и описывает пользователь Treb (извините Treb).

Чтобы понять DM с точки зрения разработчика, вы должны прочитать книгу "Коллективный анализ интеллекта" Тоби Сегарана.

Ответ 2

По моему опыту (я бывший шахтер данных:-)), это смесь использования инструментов и инструментов для написания. В большинстве случаев инструменты, необходимые для анализа конкретного набора данных, не существуют, поэтому сначала вы должны сами написать их. Это может быть очень интересно, но вам часто требуется совсем другой подход к тому программированию, которое я выполняю сейчас (встроенная беспроводная связь), например.

Ответ 3

Вы действительно должны изменить принятый ответ на этот вопрос, чтобы он не вводил в заблуждение тех, кто сталкивался с ним.

Говоря о том, что запрос на интеллектуальную обработку данных базы данных, потому что "[h] ow вы обнаружите какой-либо шаблон в своих данных без предварительного запроса?" это похоже на то, что вы открываете дверь своего автомобиля, потому что "как еще вы могли бы ехать куда-нибудь, не открывая сначала дверь автомобиля".

Вы можете прочитать свои данные из текстового файла, если хотите. В моем первом назначении интеллектуального анализа данных были использованы наборы данных из репозитория UCI, и это почти все текстовые файлы.

Если вы хотите узнать о запуске данных, начните с поиска кластеризации и классификации. Узнайте о деревьях решений и классификации на основе правил. Затем посмотрите на k-ближайший сосед и k-средство. После этого, если вы действительно хотите узнать, что такое интеллектуальный анализ, посмотрите на Chameleon, DBScan и Support Vector Machines. Не обязательно изучать мелодии последних трех (они довольно сложны и сложны в математике), но понимание абстрактной идеи о том, что произойдет, расскажет вам все, что вам нужно знать, чтобы использовать множество инструментов и библиотек, которые доступны для каждой стратегии.

Это только алгоритмы, которые появились у меня сейчас. Есть так много других, о которых я не помню или еще не знаю.

Ответ 4

Вывод данных - это поиск большого количества данных для скрытых шаблонов. Пример Web 2.0: News corp использует свой сайт myspace.com в качестве крупной шахты данных, чтобы определить, какие фильмы и продукты продвигать. Они пишут программное обеспечение для определения тенденций в данных, которые пользователи публикуют на сайте. News corp делает это для сбора информации, полезной для рекламных кампаний и рыночных прогнозов. Он отличается от других областей R & D тем, что с точки зрения данных его пассивный. Вместо того, чтобы выходить на улицу и спрашивать людей лично, какие фильмы они могут увидеть этим летом и другие подобные вопросы, инструменты для интеллектуального анализа данных разбирают эти вещи, анализируя данные, предоставленные пользователями добровольно.

В Википедии есть действительно хорошая статья: - http://en.wikipedia.org/wiki/Data_mining

Ответ 5

Data Mining, как я сказал, - это поиск моделей или тенденций из данных. Перспектива разработчика может быть в таких приложениях, как Anti Money Laundring... Если вам задан шаблон, вы будете искать данные для данного шаблона. Еще одно использование в Projection Softwares... где вы прогнозируете результат или результат в будущем в отношении эвристики, изучая распознавание текущей тенденции из данных.

Ответ 6

Я думаю, что это больше касается использования инструментов с полками, а не разработки собственных. Научным примером такого рода инструментов может быть WEKA. Конечно, вам все равно нужно знать, какие алгоритмы используют, как предварительно обрабатывать данные (очень важно эта часть) и т.д.

В R & D у меня нет большой идеи, но это должно быть почти все: математика, статистика, больше математики...

Ответ 7

На уровне разработки интеллектуальный анализ данных - это просто другое приложение базы данных, но с огромным объемом данных.

Сам процесс разработки выполняется путем запуска определенных запросов в базе данных. Это при создании запросов, где важная работа выполнена. Они, конечно, зависят от модели данных и от гипотез о том, какие тенденции ожидает клиент. Поэтому тонкая настройка запросов обычно не может быть выполнена в процессе разработки, но только после того, как система будет жить, и у вас есть живые данные. Затем пользователь может проверить свои гипотезы и адаптировать запросы, чтобы показать ему те тенденции, которые он ищет.

Итак, с точки зрения dev, передача данных о

Управление большими наборами данных в вашем клиенте (один запрос может вернуть 100 000 строк данных)
Предоставление пользователю (который вообще ничего не знает о SQL или реляционных базах данных) с эффективным способом изменения его запросов и просмотра результатов.