Разница между классификацией и кластеризацией при добыче данных?

Может кто-нибудь объяснить, в чем разница между классификацией и кластеризацией в интеллектуальном анализе данных?

Если можете, приведите примеры того и другого, чтобы понять основную идею.

Ответ 1

В общем, в классификации у вас есть набор предопределенных классов и вы хотите знать, к какому классу принадлежит новый объект.

Кластеризация пытается сгруппировать набор объектов и определить, существует ли какая-либо взаимосвязь между объектами.

В контексте машинного обучения классификация контролируемое обучение и кластеризация неконтролируемое обучение.

Также посмотрите Classification и Кластеризация в Википедии.

Ответ 2

Прочитайте следующую информацию:

Ответ 3

Если вы задали этот вопрос любым лицам, изучающим данные или машинам, они будут использовать термин контролируемое обучение и неконтролируемое обучение, чтобы объяснить вам разницу между кластеризацией и классификацией. Поэтому позвольте мне сначала объяснить вам, какое ключевое слово контролируется и не контролируется.

Наблюдаемое обучение: предположим, что у вас есть корзина, и она наполнена свежими фруктами, и ваша задача - организовать фрукты того же типа в одном месте. Предположим, что фрукты - это яблоко, банан, вишня и виноград. поэтому вы уже знаете из своей предыдущей работы, что форма каждого фрукта, поэтому легко разместить один и тот же тип фруктов в одном месте. здесь ваша предыдущая работа называется обученными данными в области интеллектуального анализа данных. так что вы уже изучаете вещи из ваших обучаемых данных. Это из-за того, что у вас есть переменная ответа, которая говорит вам, что если у некоторых фруктов есть такие особенности, то это виноград, как для каждого фрукта.

Этот тип данных вы получите из подготовленных данных. Этот тип обучения называется контролируемым обучением. Задача такого типа относится к классификации. Итак, вы уже изучили все, чтобы вы могли уверенно выполнять свою работу.

неконтролируемый: предположим, что у вас есть корзина, и она наполнена свежими фруктами, и ваша задача - устроить фрукты того же типа в одном месте.

На этот раз вы ничего не знаете об этих плодах, вы впервые видите эти плоды, так как вы будете устраивать один и тот же тип фруктов.

Что вы сделаете в первую очередь - возьмите плод, и вы выберете любой физический характер этого конкретного фрукта. предположим, что вы взяли цвет.

Затем вы разместите их на основе цвета, тогда группам будет что-то вроде этого. КРАСНАЯ ЦВЕТНАЯ ГРУППА: яблоки и вишневые фрукты. ЗЕЛЕНАЯ ЦВЕТНАЯ ГРУППА: бананы и виноград. так что теперь вы возьмете другой физический персонаж как размер, так что теперь группам будет что-то вроде этого. КРАСНЫЙ ЦВЕТ И БОЛЬШОЙ РАЗМЕР: яблоко. КРАСНЫЙ ЦВЕТ И МАЛЫЙ РАЗМЕР: вишневые фрукты. ЗЕЛЕНЫЙ ЦВЕТ И БОЛЬШОЙ РАЗМЕР: бананы. ЗЕЛЕНЫЙ ЦВЕТ И МАЛЫЙ РАЗМЕР: виноград. работа завершено счастливый завершение.

здесь вы ничего не узнали раньше, значит нет данных поезда и переменной ответа. Этот тип обучения - это неконтролируемое обучение. кластеризация приходит под неконтролируемое обучение.

Ответ 4

+ Классификация: вам даются некоторые новые данные, вы должны установить для них новую метку.

Например, компания хочет классифицировать своих потенциальных клиентов. Когда приходит новый клиент, они должны определить, является ли это заказчиком, который собирается покупать свою продукцию или нет.

+ Кластеризация: вам дается набор транзакций истории, в которых записано, кто купил что.

Используя методы кластеризации, вы можете рассказать сегментацию своих клиентов.

Ответ 5

Я уверен, что многие из вас слышали о машинном обучении. Дюжина из вас может даже знать, что это такое. И некоторые из вас, возможно, тоже работали с алгоритмами машинного обучения. Вы видите, куда это идет? Не многие люди знакомы с технологией, которая станет абсолютно необходимой через 5 лет. Сири - машинное обучение. Amazons Alexa - это машинное обучение. Системы рекомендации для рекламы и покупок - машинное обучение. Давайте попробуем понять машинное обучение по простой аналогии с двухлетним мальчиком. Просто для удовольствия, давайте называть его Kylo Ren

Предположим, Кайло Рен видел слона. Что ему скажет его мозг? (Помните, что он обладает минимальным мышлением, даже если он является преемником Вейдера). Его мозг скажет ему, что он увидел большое движущееся существо серого цвета. Затем он видит кота, и его мозг говорит ему, что это маленькое движущееся существо золотого цвета. Наконец, он видит следующую световую саблю, и его мозг говорит ему, что это неживой объект, с которым он может играть!

В этот момент его мозг знает, что сабля отличается от слона и кошки, потому что сабля - это то, с чем можно играть, и она не движется сама по себе. Его мозг может понять это, даже если Кайло не знает, что такое подвижный. Это простое явление называется кластеризацией.

Машинное обучение - не что иное, как математическая версия этого процесса. Многие люди, изучающие статистику, поняли, что они могут заставить некоторые уравнения работать так же, как работает мозг. Мозг может объединять похожие объекты, мозг может учиться на ошибках, а мозг может учиться распознавать вещи.

Все это может быть представлено с помощью статистики, и компьютерное моделирование этого процесса называется машинным обучением. Зачем нам компьютерное моделирование? потому что компьютеры могут выполнять тяжелую математику быстрее, чем человеческий мозг. Я хотел бы углубиться в математическую/статистическую часть машинного обучения, но вы не хотите вдаваться в подробности, не очистив сначала некоторые понятия.

Давайте вернемся к Kylo Ren. Допустим, Кайло берет саблю и начинает играть с ней. Он случайно ударяет штурмовика, и штурмовик получает травму. Он не понимает, что происходит, и продолжает играть. Затем он бьет кошку, и кошка получает травму. На этот раз Кайло уверен, что он сделал что-то плохое, и старается быть осторожнее. Но, учитывая его плохие сабельные навыки, он бьет слона и абсолютно уверен, что у него проблемы. После этого он становится чрезвычайно осторожным и целит своего отца только так, как мы видели в "Пробуждении силы" !!

Весь этот процесс обучения на вашей ошибке может быть сымитирован с помощью уравнений, где чувство, что вы делаете что-то не так, представлено ошибкой или стоимостью. Этот процесс определения того, чего не следует делать с саблей, называется классификацией. Кластеризация и классификация являются абсолютными основами машинного обучения. Давайте посмотрим на разницу между ними.

Кайло различал животных и легкую саблю, потому что его мозг решил, что легкие сабли не могут двигаться сами по себе и, следовательно, отличаются друг от друга. Решение было основано исключительно на имеющихся объектах (данных), и никакой внешней помощи или совета предоставлено не было. В отличие от этого, Кайло дифференцировал важность осторожности с легкой саблей, сначала наблюдая, что может сделать удар по объекту. Решение не было полностью основано на сабле, но на том, что она могла сделать с различными объектами. Короче, здесь была некоторая помощь.

Из-за этого различия в обучении кластеризация называется методом обучения без учителя, а классификация называется методом обучения под наблюдением. Они очень разные в мире машинного обучения и часто продиктованы типом имеющихся данных. Получение помеченных данных (или вещей, которые помогают нам учиться, таких как штурмовик, слон и кошка в случае с Килосом) часто является непростым делом и становится очень сложным, когда данные, подлежащие дифференцировке, велики. С другой стороны, обучение без меток может иметь свои недостатки, например, не знать, как называются метки. Если бы Кайло научился быть осторожным с саблей без каких-либо примеров или помощи, он не знал бы, что он будет делать. Он просто знал бы, что это не должно быть сделано. Это своего рода неудачная аналогия, но вы понимаете!

Мы только начинаем с машинного обучения. Сама классификация может быть классификацией непрерывных чисел или классификацией меток. Например, если бы Кайло пришлось классифицировать, какова высота каждого штурмовика, было бы много ответов, потому что высоты могут быть 5,0, 5,01, 5,011 и т.д. Но простая классификация, такая как типы легких сабель (красный, синий. Зеленый) будет иметь очень ограниченные ответы. Фактически они могут быть представлены простыми числами. Красный может быть 0, синий может быть 1 и зеленый может быть 2.

Если вы знаете основную математику, вы знаете, что 0,1,2 и 5.1,5.01,5.011 различны и называются дискретными и непрерывными числами соответственно. Классификация дискретных чисел называется логистической регрессией, а классификация непрерывных чисел называется регрессией. Логистическая регрессия также известна как категориальная классификация, поэтому не путайте, когда вы читаете этот термин в другом месте

Это было очень базовое введение в машинное обучение. Я остановлюсь на статистической стороне в моем следующем посте. Пожалуйста, дайте мне знать, если мне нужны какие-либо исправления :)

Вторая часть размещена здесь.

Ответ 6

Я новый поклонник Data Mining, но, как говорится в моем учебнике, CLASSICIATION должен контролироваться обучением, а CLUSTERING - неконтролируемым обучением. Разницу между контролируемым обучением и неконтролируемым обучением можно найти здесь .

Ответ 7

Классификация

Является ли назначение предопределенных классов новыми наблюдениями на основе изучения примеров.

Это одна из ключевых задач машинного обучения.

Кластеризация (или кластерный анализ)

В то время как общедоступно отклонено как "неконтролируемая классификация", это совсем другое.

В отличие от того, чему научат вас многие машинные слушатели, речь идет не о назначении "классов" объектам, но без их предопределения. Это очень ограниченный взгляд на людей, которые слишком много классифицировали; типичный пример, если у вас есть молот (классификатор), все выглядит как гвоздь (проблема классификации) для вас. Но также, почему люди классификации не получают зависания кластеризации.

Вместо этого рассмотрите это как обнаружение структуры. Задача кластеризации - найти структуру (например, группы) в ваших данных, которые вы не знали раньше. Кластеризация прошла успешно, если вы узнали что-то новое. Это не получилось, если вы только получили структуру, которую вы уже знали.

Анализ кластеров - это ключевая задача интеллектуального анализа данных (и уродливый утенок в машинном обучении, поэтому не слушайте машинных учащихся, уклоняющихся от кластеризации).

"Неконтролируемое обучение" - это несколько Оксиморон

Это повторялось вверх и вниз по литературе, но неконтролируемое обучение - это bllsht. Этого не существует, но это оксюморон, как "военный интеллект".

Либо алгоритм учится на примерах (тогда это "контролируемое обучение" ), либо он не учится. Если все методы кластеризации являются "обучением", то вычисление минимального, максимального и среднего значения набора данных также "неконтролируемое обучение". Тогда любое вычисление "выучило" его выход. Таким образом, термин "неконтролируемое обучение" абсолютно бессмысленен, это означает все и ничего.

Некоторые алгоритмы "неконтролируемого обучения", однако, попадают в категорию Оптимизация. Например, k-средство представляет собой оптимизацию наименьших квадратов. Такие методы по всей статистике, поэтому я не думаю, что нам нужно обозначить их "неконтролируемое обучение", но вместо этого следует продолжать называть их "проблемами оптимизации". Это более точно и более значимо. Существует множество алгоритмов кластеризации, которые не связаны с оптимизацией, и которые хорошо не вписываются в парадигмы машинного обучения. Поэтому прекратите сжимать их там под зонтиком "неконтролируемое обучение".

Существует некоторое "обучение", связанное с кластеризацией, но это не программа, которая учится. Это пользователь, который должен узнать о вещах о своем наборе данных.

Ответ 8

С помощью кластеризации вы можете группировать данные с вашими желаемыми свойствами, такими как число, форма и другие свойства извлеченных кластеров. Хотя в классификации количество и форма групп фиксированы. Большинство алгоритмов кластеризации дают количество кластеров в качестве параметра. Тем не менее, есть несколько подходов, чтобы выяснить подходящее количество кластеров.

Ответ 9

Прежде всего, я скажу, как и многие ответы до этого, классификация контролируется, обучение и кластеризация не контролируются. Это значит:

Классификация нуждается в маркировке данных, чтобы классификаторы могли быть обучены этим данным, и после этого начать классифицировать новые невидимые данные на основе того, что он знает. При неконтролируемом обучении, таком как кластеризация, не используются помеченные данные, и на самом деле они обнаруживают внутренние структуры данных, таких как группы.
Еще одно различие между обоими методами (связанное с предыдущим) заключается в том, что классификация является формой проблемы дискретной регрессии, когда выходной результат является категориально зависимой переменной. Принимая во внимание, что кластеризация выводит набор подмножеств, называемых группами. Способ оценки этих двух моделей также различен по одной и той же причине: при классификации вам часто приходится проверять точность и отзыв, такие вещи, как переоснащение и недостаточное оснащение и т.д. Эти вещи скажут вам, насколько хороша модель. Но при кластеризации вам обычно требуется видение и опыт для интерпретации того, что вы найдете, потому что вы не знаете, какой у вас тип структуры (тип группы или кластера). Вот почему кластеризация относится к исследовательскому анализу данных.
Наконец, я бы сказал, что приложения являются основным отличием между ними. Классификация, как говорит само слово, используется для различения случаев, которые принадлежат к тому или иному классу, например, мужчина или женщина, кошка или собака и т.д. Кластеризация часто используется при диагностике медицинских заболеваний, обнаружении паттернов, и т.п.

Ответ 10

Классификация - Предсказывает категориальные метки классов - классифицирует данные (создает модель) на основе набора обучения и значений (метки классов) в атрибуте метки класса - Использует модель при классификации новых данных

Кластер: набор объектов данных - Подобно друг другу в одном кластере - Не похоже на объекты в других кластерах

Ответ 11

Кластеризация нацелена на поиск групп в данных. "Кластер" - это интуитивная концепция и делает не имеют математически строгого определения. Члены одного кластера должны быть аналогичные друг другу и отличающиеся от членов других кластеров. Кластеризация алгоритм работает с немаркированным набором данных Z и создает на нем раздел.

Для классов и ярлыков классов, class содержит похожие объекты, тогда как объекты из разных классов отличаются друг от друга. Некоторые классы имеют четкое значение, а в простейшем случае являются взаимоисключающими. Например, при проверке подписи подпись является либо подлинные или подделанные. Истинный класс является одним из двух, независимо от того, что мы могли бы не быть способный правильно угадать от наблюдения определенной сигнатуры.

Ответ 12

Кластеризация - это метод группировки объектов таким образом, что объекты со схожими функциями объединяются, а объекты с разнородными функциями расходятся. Это общая методика анализа статистических данных, используемая в машинных процессах и интеллектуальном анализе данных.

Классификация - это процесс категоризации, когда объекты распознаются, дифференцируются и понимаются на основе набора данных обучения. Классификация - это контролируемый метод обучения, в котором доступны обучающий набор и правильно определенные наблюдения.

Ответ 13

Из книги Mahout в действии, и я думаю, что она очень хорошо объясняет разницу:

Алгоритмы классификации связаны, но все еще сильно отличаются от алгоритмов кластеризации, таких как алгоритм k-средних.

Алгоритмы классификации - это форма контролируемого обучения, в отличие от неконтролируемого обучения, которое происходит с алгоритмами кластеризации.

Контролируемый алгоритм обучения - это тот, который приведен в примерах, которые содержат желаемое значение целевой переменной. Неконтролируемые алгоритмы arent дают желаемый ответ, но вместо этого должны найти что-то правдоподобное самостоятельно.

Ответ 14

Классификация: Прогнозирование результатов в дискретном выводе => преобразование входных переменных в дискретные категории

Популярные варианты использования:

Классификация электронной почты: спам или не спам
Санкционный кредит клиенту: да, если он способен оплатить EMI за санкционированную сумму кредита. Нет, если он не может
Идентификация раковых опухолевых клеток: критическая или некритическая?
Анализ настроений твитов: является ли твит положительным или отрицательным или нейтральным
Классификация новостей: классифицируйте новости на один из заранее определенных классов - политика, спорт, здоровье и т.д.

Кластеризация: задача группирования набора объектов таким образом, чтобы объекты в одной и той же группе (называемой кластером) были больше похожи (в некотором смысле) друг на друга, чем на объекты в других группах (кластерах).

Популярные варианты использования:

Маркетинг: выявление клиентских сегментов в маркетинговых целях
Биология: классификация среди разных видов растений и животных
Библиотеки: кластеризация разных книг на основе тем и информации
Страхование: признание клиентов, их политики и выявление мошенничества
Градостроительство. Составьте группы домов и изучите их стоимость в зависимости от их географического положения и других факторов.
Исследования землетрясений: выявление опасных зон
Система рекомендаций:

Рекомендации:

geeksforgeeks

dataaspirant

3leafnodes

Ответ 15

Если вы пытаетесь загрузить большое количество листов на полку (в зависимости от даты или какой-либо другой спецификации файла), вы CLASSIFYING.

Если вы создавали кластеры из набора листов, это означало бы, что между листами что-то похожее.

Ответ 16

В интеллектуальном анализе данных есть два определения: "Подконтрольный" и "Неконтролируемый". Когда кто-то говорит компьютеру, алгоритму, коду..., что эта вещь похожа на яблоко, и эта вещь похожа на апельсин, это контролируется обучением и использованием контролируемого обучения (например, тегов для каждого образца в наборе данных) для классификации данных, вы получите классификацию. Но, с другой стороны, если вы позволите компьютеру узнать, что есть и что отличает функции данного набора данных, на самом деле неконтролируемое обучение, для классификации набора данных это будет называться кластеризация. В этом случае данные, которые подаются в алгоритм, не имеют тегов, и алгоритм должен найти разные классы.

Ответ 17

Машиноведение или ИИ в значительной степени воспринимаются задачей, которую она выполняет/достигает.

На мой взгляд, размышляя о кластеризации и классификации в понятии задачи, которую они достигают, действительно может помочь понять разницу между ними.

Кластеризация - это групповое вещание, а классификация - это нечто вроде ярлыка.

Предположим, вы находитесь в партийном зале, где все мужчины в костюмах, а женщины - в мантиях.

Теперь вы задаете своему другу несколько вопросов:

Q1: Хей, ты можешь помочь мне сгруппировать людей?

Возможные ответы, которые может дать ваш друг:

1: Он может группировать людей на основе пола, мужчины или женщины.

2: Он может группировать людей по их одежде, 1 в костюмах других носящих платьев

3: Он может группировать людей по цвету их волос

4: Он может группировать людей по их возрастной группе и т.д. и т.д. и т.д.

Их многочисленные способы, которыми ваш друг может выполнить эту задачу.

Конечно, вы можете влиять на процесс принятия решений, предоставляя дополнительные ресурсы, такие как:

Можете ли вы помочь мне сгруппировать этих людей на основе пола (или возрастной группы, или цвета волос или платья и т.д.).

Q2:

До Q2 вам нужно выполнить предварительную работу.

Вы должны учить или сообщать своему другу, чтобы он мог принять обоснованное решение. Итак, скажем, вы сказали своему другу, что:

Люди с длинными волосами - Женщины.
Люди с короткими волосами - это мужчины.

Q2. Теперь вы указываете человеку с длинными волосами и спрашиваете своего друга - это мужчина или женщина?

Единственный ответ, который вы можете ожидать, это: Женщина.

Конечно, в партии могут быть мужчины с длинными волосками и женщины с короткими волосками. Но ответ правильный, основанный на обучении, которое вы предоставили своему другу. Вы можете еще больше улучшить процесс, обучая своего друга другому, как различать эти два.

В приведенном выше примере

Q1 представляет задачу, которую выполняет Clustering.

В кластеризации вы предоставляете данные (люди) алгоритму (вашему другу) и просите его группировать данные.

Теперь, до алгоритма, чтобы решить, какой лучший способ группировать? (Пол, Цвет или возрастная группа).

Опять же, вы можете определенно повлиять на решение, принятое алгоритмом, предоставив дополнительные входы.

Q2 представляет задачу, которую выполняет классификация.

Там вы даете вашему алгоритму (вашему другу) некоторые данные (Люди), которые называются данными обучения, и заставляют его узнать, какие данные соответствуют метке (мужчина или женщина). Затем вы указываете свой алгоритм на определенные данные, называемые тестовыми данными, и просите его определить, является ли он мужчиной или женщиной. Чем лучше ваше учение, тем лучше это предсказание.

И предварительная работа в Q2 или классификация - это не что иное, как просто обучение вашей модели, чтобы она могла научиться отличать. В кластеризации или Q1 эта предварительная работа является частью группировки.

Надеюсь, это поможет кому-то.

Спасибо

Ответ 18

Один вкладыш для классификации:

Классификация данных в предопределенные категории

Один вкладыш для кластеризации:

Группирование данных в набор категорий

Основные различия:

Классификация берет данные и помещает их в предварительно определенные категории и в кластеризацию набора категорий, в которые вы хотите сгруппировать данные, неизвестно заранее.

Вывод:

Классификация присваивает категории 1 новый элемент, основанный на уже помеченные элементы, в то время как Clustering берет кучу немеченых предметов и разделите их на категории
В классификации классифицируются категории\группы, которые должны быть разделены предварительно в разделе "Кластеризация" категории\группы, которые нужно разделить неизвестны заранее
В классификации есть 2 фазы - этап обучения, а затем фазы тестирования, в то время как в кластеризации существует только одно фазовое деление данные обучения в кластерах
Классификация контролируется Изучением, в то время как кластеризация Неконтролируемое обучение.

Я написал длинный пост по той же теме, который вы можете найти здесь:

https://neelbhatt40.wordpress.com/2017/11/21/classification-and-clustering-machine-learning-interview-questions-answers-part-i/

Ответ 19

Классификация - набор данных может иметь разные группы/классы. красный, зеленый и черный. Классификация попытается найти правила, которые делят их на разные классы.

Custering- если у набора данных нет какого-либо класса, и вы хотите поместить их в какой-то класс/группу, вы делаете кластеризацию. Фиолетовые круги выше.

Если правила классификации не подходят, у вас будет неправильная классификация при тестировании, или ваши правила не будут правильными.
если кластеризация не очень хорошая, у вас будет много выбросов, т.е. Точки данных не могут попасть ни в один кластер.

Ответ 20

Основные различия между классификацией и кластеризацией: Классификация - это процесс классификации данных с помощью меток классов. С другой стороны, кластеризация похожа на классификацию, но нет предопределенных меток классов. Классификация ориентирована на контролируемое обучение. В отличие от кластеризации также известен как обучение без учителя. Образец обучения предоставляется в методе классификации, а в случае кластеризации данные обучения не предоставляются.

Надеюсь, это поможет!

Ответ 21

Я считаю, что классификация классифицирует записи в наборе данных в предопределенные классы или даже определяет классы на ходу. Я рассматриваю это как предпосылки для любого ценного интеллектуального анализа данных, мне нравится думать об этом при неконтролируемом обучении, т.е. Он не знает, что он/она ищет, в то время как добыча данных и классификация служат хорошей отправной точкой.

Кластеризация на другом конце подпадает под контролируемое обучение, то есть кто-то знает, какие параметры искать, корреляция между ними вместе с критическими уровнями. Я считаю, что это требует некоторого понимания статистики и математики