Подтвердить что ты не робот

Инструменты интеллектуального анализа данных с открытым исходным кодом

Я должен запустить проект, который предназначен для интеллектуального анализа данных. Прежде чем я вскочил, я хотел исследовать различные инструменты интеллектуального анализа данных (предпочтительно с открытым исходным кодом), которые позволяют создавать веб-отчеты. В моем сценарии данные будут предоставлены мне, поэтому я не должен сканировать его.

Вкратце, я ищу инструмент, который делает - Data Analysis, Web Reporting, предоставляет какие-то функции панели управления и интеллектуального анализа.

Я работал над Microsoft Analysis Services и BOXI, и в последнее время я смотрел на Pentaho, что кажется хорошим вариантом.

Поделитесь своими впечатлениями о любом таком инструменте, о котором вы знаете.

веселит

4b9b3361

Ответ 1

Я считаю, что WEKA - лучшее программное обеспечение DM с открытым исходным кодом.

Отметьте: http://www.cs.waikato.ac.nz/ml/weka/

Ответ 2

Weka отлично, но вы можете попробовать использовать инструментарий Orange Data Mining.

http://www.ailab.si/orange/

Изменить: И по состоянию на ноябрь 2010 года я должен сказать, что мне действительно нравится KNIME.

Ответ 3

R имеет множество отличных пакетов, связанных с интеллектуальным анализом данных. В частности, посмотрите:

Он также связан с Weka (см. пакет RWeka). И он может быть интегрирован с .Net(через COM) или Python (через RPy или RPy2).

Я бы согласился относительно Pentaho для платформы отчетности, хотя это очень большой проект в зависимости от того, для чего вы его используете.

Ответ 4

Вы также должны проверить Apache Mahout. Это может быть весьма полезно для некоторых крупномасштабных задач машинного обучения, таких как кластеризация пользователей.

Ответ 5

RapidMiner - мой предпочтительный инструмент для интеллектуального анализа данных.

Ответ 6

Я бы попробовал с новыми инструментами google.

- сначала вам нужно получить идентификатор api для хранилища google, в котором вы собираетесь хранить и обрабатывать данные, которые собираетесь анализировать.

-Тогда вам нужно получить идентификатор api для google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), который для того, что я видел, это фантастический аутсорсинговый процессор обработки данных. API Prediction позволяет получить больше от ваших данных и сделать его шаблоны более доступными. Помимо использования традиционных числовых и номинальных данных, вы также можете использовать текстовые данные, которые благодаря этому api могут использоваться для проверки, чтобы классифицировать электронные письма по языку.

. Наконец, вы можете использовать bigQuery, который позволит вам выполнять Ad-hoc-анализ, стандартизованную отчетность, прототипирование приложений исследования данных (http://code.google.com/apis/bigquery/)

Ответ 7

KEEL (http://keel.es) написан на Java и хорош для использования эволюционных вычислений для интеллектуального анализа данных.

Ответ 8

Посмотрите список программного обеспечения с открытым исходным кодом для машинного обучения, поддерживаемого JMLR. вы можете найти его здесь:

http://mloss.org/software/

http://jmlr.csail.mit.edu/mloss/

Они представляют состояние искусства!

Моя проблема с Weka заключается в том, что ряд алгоритмов в ней устарел.

Ответ 9

Я считаю, что RapidMiner - отличный инструмент, который следует добавить в этот список.

Ответ 10

WEKA (уже упоминалось), Оранжевый (http://orange.biolab.si/), Танагра (http://data-mining-tutorials.blogspot.com) вы можете найти там хорошие учебники.

Являются очень хорошими инструментами для интеллектуального анализа данных.

Ответ 11

Вы можете проверить мое программное обеспечение, инфраструктуру интеллектуального анализа данных SPMF.

Это программное обеспечение с открытым исходным кодом Java, которое предлагает более 70 алгоритмов для:

  • частые массивы,
  • определение правила объединения,
  • последовательная разработка шаблонов
  • секвенциальное управление.
  • и многое другое..

Ответ 12

Pentaho - очень профессиональное решение. Определенно очень хороший выбор.

Ответ 14

Ниже приведен список некоторых инструментов интеллектуального анализа данных с открытым исходным кодом: http://dataminingtools.net/browse.php

Ответ 16

Я считаю, KNIME заслуживает также присоединиться к этому списку.

Ответ 17

Weka сильна для классификации и/машинного обучения /. Для многих это считается скорее частью искусственного интеллекта, чем фактической добычи данных. RapidMiner в основном идет по одной линии, но с гораздо более приятным интерфейсом. Pentaho является профессиональной поддержкой Weka AFAICT.

Возможно, вам стоит взглянуть на ELKI, http://elki.dbs.ifi.lmu.de/, который является сопоставимым проектом, который фокусируется на алгоритмах кластеризации и обнаружениях выбросов, два другие ключевые задачи интеллектуального анализа данных.

Ответ 19

Наряду с инструментами я настоятельно рекомендую изучить Python и R. Эти языки очень помогают в анализе. Кроме того, большие наборы данных могут быть "выборочно проанализированы". Вы также можете создать свою собственную панель управления с помощью Javascript (просмотрите многочисленные библиотеки диаграмм и визуализации)

Ответ 20

Я сам питон, и я должен сказать:

Да! Все это можно сделать в Python.

Я последний раз играл с Beautiful Soup [0]. Это действительно простой в использовании модуль, который позволяет захватывать/передавать данные из html и xml (отлично подходит для "скрипинга экрана" ).

Если вы не знаете python,... ну, это действительно легко узнать.

[0] http://www.crummy.com/software/BeautifulSoup/