IR против Data mining против ML

Люди часто бросают вокруг терминов IR, ML и data mining, но я заметил много перекрытия между ними.

От людей с опытом в этих полях, что именно рисует линию между ними?

Ответ 1

Это просто взгляд одного человека (формально обученного в ML); другие могут видеть вещи совсем по-другому.

Машинное обучение, вероятно, является наиболее однородным из этих трех терминов и наиболее последовательно применяется - оно ограничивается шаблоном-экстракцией (или сопоставлением с образцом) самих себя.

Из терминов, которые вы упомянули, "Машинное обучение" является наиболее используемым Академическими департаментами для описания их учебных планов, их академических отделов и их исследовательских программ, а также терминов, наиболее используемых в научных журналах и конференциях. ML, безусловно, является наименее зависимым от условий, о которых вы говорили.

Информационный поиск и Data Mining намного ближе к описанию полных коммерческих процессов - то есть от пользовательского запроса до получения/доставки соответствующих результатов. ML-алгоритмы могут быть где-то в этом потоке процессов, а в более сложных приложениях часто бывают, но это не формальное требование. Кроме того, термин "интеллектуальный анализ данных" обычно, как правило, относится к применению некоторого потока процесса для больших данных (т.е. > 2BG) и поэтому обычно включает компонент распределенной обработки (уменьшения карты) рядом с этим рабочим процессом.

Таким образом, поиск информации (IR) и интеллектуальный анализ данных (DM) связаны с машинным обучением (ML) в способе "Инфраструктура-алгоритм". Другими словами, машинное обучение является одним из источников инструментов, используемых для решения проблем в поиске информации. Но это только один источник инструментов. Но IR не зависит от ML - например, конкретный проект IR может быть хранилищем и быстрым поиском полностью проиндексированных данных, реагирующих на IR запроса пользователя, суть которого заключается в оптимизации производительности потока данных, т.е., в оба конца от запроса до предоставления результатов поиска пользователю. Прогнозирование или сопоставление шаблонов могут быть полезны здесь. Аналогичным образом, проект DM может использовать алгоритм ML для интеллектуального движка, однако проект DM, скорее всего, будет также связан со всем процессом обработки - например, параллельные методы расчета для эффективного ввода огромного объема данных (возможно, TB), который обеспечивает прото-результат для механизма обработки для вычисления описательной статистики (среднее значение, стандартное отклонение, распределение и т.д. по переменным (столбцам).

Наконец, рассмотрим приз Netflix. Этот конкурс был направлен исключительно на машинное обучение - основное внимание уделялось алгоритму прогнозирования, о чем свидетельствует тот факт, что существует единственный критерий успеха: точность предсказаний, возвращаемых алгоритмом. Представьте себе, если "Приз Netflix" был ребрендирован как конкурс интеллектуального анализа данных. Критерии успеха почти наверняка будут расширены для более точного доступа к производительности алгоритма в реальных коммерческих настройках - так, например, общая скорость выполнения (как быстро будут предоставлены пользователю), вероятно, будет учитываться с точностью.

Теперь термины "поиск информации" и "интеллектуальный анализ данных" используются в основном режиме, хотя некоторое время я видел только эти термины в описании своей работы или в литературе поставщика (обычно рядом со словом "решение" ). На моем работодатель, мы недавно наняли аналитика "Data Mining". Я не знаю, что он делает точно, но он каждый день надевает галстук.

Ответ 2

Я попытался бы нарисовать линию следующим образом:

Поиск информации - это поиск того, что уже является частью ваших данных, как можно быстрее.

Машинное обучение - это методы для обобщения существующих знаний на новые данные, насколько это возможно.

Генерация данных - это прежде всего обнаружение чего-то скрытого в ваших данных, которое вы не знали раньше, как "новое", насколько это возможно.

Они пересекаются и часто используют техники друг друга. DM и IR используют индексные структуры для ускорения процессов. DM использует много методов ML, например шаблон в наборе данных, который полезен для обобщения, может быть новым знанием.

Их часто трудно разделить. Сделай себе одолжение и не просто иди за помощью. На мой взгляд, лучший способ их отличия заключается в их намерении, как указано выше: найти данные, обобщить на новые данные, найти новые свойства существующих данных.

Ответ 3

Вы также можете добавить статистику распознавания и (вычислительную?) статистику как еще пару областей, которые перекрываются с тремя упомянутыми вами.

Я бы сказал, что между ними нет четко определенной линии. Их разделяет их история и их акценты. Статистика подчеркивает математическую строгость, интеллектуальный анализ подчеркивает масштабирование до больших наборов данных, ML находится где-то посередине.

Ответ 4

Вывод данных посвящен обнаружению скрытых шаблонов или неизвестных знаний, которые могут быть использованы для принятия решений людьми.

Машинное обучение - это изучение модели для классификации новых объектов.