Подтвердить что ты не робот

Разница между выбором функции, извлечением функции, весом функций

Я немного смущен относительно того, что означает "выбор/извлечение/весы" и разница между ними. Поскольку я иногда читаю литературу, я чувствую себя потерянной, поскольку считаю, что этот термин используется довольно свободно, мои основные проблемы -

  • Когда люди говорят о частоте функции, присутствию функции - это выбор функции?

  • Когда люди говорят об алгоритмах, таких как Information Gain, Maximum Entropy - это выбор функции.

  • Если я тренирую классификатор - с набором функций, который просит классификатор отметить позицию слова в документе в качестве примера - будет ли еще вызов этого выбора функции?

Спасибо Рахул Дих

4b9b3361

Ответ 1

Рахул -

Все это хорошие ответы. Единственное, что я хотел бы упомянуть, это то, что фундаментальное различие между выбором и извлечением связано с тем, как вы обрабатываете данные.

Функция Извлечение методов является преобразовательным - то есть вы применяете преобразование к своим данным, чтобы проецировать его в новое пространство с меньшим размером. PCA и SVD являются примерами этого.

Методы выбора объектов выбирают функции из исходного набора, основанные на некоторых критериях, информация Gain, Correlation и Mutual Information - это только критерии, которые используются для фильтрации несущественных или избыточных функций. Встроенные или оберточные методы, как они называются, могут использовать специализированные классификаторы для одновременного выбора функций и классификации набора данных.

Действительно хороший обзор проблемного пространства дается здесь.

Удачи!

Ответ 2

Извлечение функции: уменьшить размерность (линейный или не- линейная) проекция D-мерного вектора на d-мерную вектор (d < D). Пример: анализ основных компонентов

Выбор функции: уменьшить размерность, выбрав подмножество исходных переменных. Пример: выбор функции вперед или назад

Ответ 3

Выбор функций - это процесс выбора "интересных" функций из вашего набора для дальнейшей обработки.

Функция Частота - это просто частота, с которой появляется функция.

Усиление информации, максимальная энтропия и т.д. - это методы взвешивания, в которых используется функция Frequency Frequency, которая, в свою очередь, позволяет выполнять выбор функций.

Подумайте об этом так:

Вы разбираете корпус и создаете матрицу терминов/документов. Эта матрица начинается как счетчик терминов и какой документ, в котором они появляются (простая частота).

Чтобы сделать эту матрицу более значимой, вы взвешиваете термины, основанные на некоторой функции, включая частоту (например, частоту с частотно-инвертируемым периодом документа, коэффициент усиления информации, максимальную энтропию). Теперь эта матрица содержит веса или значение каждого члена по отношению к другим членам в матрице.

После этого вы можете использовать функцию выбора, чтобы сохранить только самые важные термины (если вы делаете такие вещи, как классификация или категоризация) и выполнять дальнейший анализ.