Как обычно работают автоматические алгоритмы рекомендаций?

Я только что прочитал, как команда BellKors Pragmatic Chaos выиграла Netflix Challenge на проводной основе, и мне интересно, как обычно такие алгоритмы Работа. Я знаю, что решение команды Bellkor должно быть новаторским на поле. Но как обычно работает поле? Это просто очень подробная база данных с цепями Маркова, которые снова и снова запускаются или что?

Ответ 1

но как обычно работает поле?

Это метод интеллектуального анализа данных. Data Mining используется как часть Business Intelligence (хранилище данных и т.д.), Пытаясь найти отношения и информацию в огромных объемах данных. Это область компьютерных наук, занимающаяся также машинным обучением в целом, например. распознавание образов. Автоматические рекомендации получены Association Mining. Связь с высокой поддержкой показана в качестве рекомендации. Алгоритм k-ближайшего соседа - это лишь один из многих алгоритмов, используемых людьми машинного обучения/интеллектуального анализа данных.

Если вас интересует базовая теория, я рекомендую Ian H. Witten Data Mining: Практические инструменты и методы машинного обучения.

Для Java есть отличный пакет машинного обучения, WEKA, который способен объединение.. Ян Виттен также является одним из авторов WEKA.

Ответ 2

Взгляните на эту статью в Википедии: Euclidean Distance.

Основная идея заключается в том, что вы используете метрику расстояния (например, евклидова выше), чтобы сравнивать людей или вещи друг с другом.

Новая книга O'Reilly, Программирование коллективного интеллекта: создание приложений Smart Web 2.0 имеет замечательную главу по этой теме.

Ответ 3

Большинство участников турнира Netflix использовали вариации в Различия в уникальном значении. Этот алгоритм работает, беря большую матрицу и упрощая ее до приблизительной матрицы 2x2. Эта матрица 2x2 может быть построена на двумерном пространстве, где точки друг у друга имеют сходство друг с другом в исходной матрице.

Итак, в случае Netflix вы можете создать матрицу с фильмами, являющимися столбцами, а пользователи - это строки, где любое значение [i, j] - это рейтинг, который пользователь я дал фильму j. Это очень большая матрица, которая затем может быть применена к SVD для генерации двумерной матрицы, которая служит приближением большей матрицы. Пользователи, которые находятся близко друг к другу, когда они изображены на этом самолете, имеют похожие оценки, поэтому, если один пользователь не видел фильм, который другой пользователь видел, кто рядом с ним на этом самолете, это может быть рекомендацией для нового пользователя.

Победившее решение разработало вариацию прямого SVD-алгоритма, называемого SVD ++, и смешала его вместе с другими краевыми случаями, чтобы попытаться создать алгоритм, который превысит 10% -ное улучшение, необходимое для получения приза.

Ответ 4

Я нашел эту предыдущую статью в Wired, в которой кратко упоминается k-ближайший сосед, используемый в прошлом Bellkor и Cinematch.

Интересные наблюдения психолога о том, как найти предвзятость, интересны.