Этот вопрос был первоначально домашним заданием, которое у меня было, но мой ответ был неправильным, и мне интересно, что является лучшим решением для этой проблемы.
Цель состоит в том, чтобы вычислить ключевые аспекты "алгоритма самонастраивания системы рекомендаций", используя 4 шага сокращения карты. Моя проблема связана с 3-м шагом, поэтому я приведу только его детали.
ввод: записи формы:
1. (идентификатор населения, пункт, количество рейтинг пользователей, сумма рейтингов, сумма рейтинги в квадрате)
2. (Население id, разделитель, листы/нелюдители, номер, количество пользователей рейтинга, сумма рейтинги, сумма оценок в квадрате)
Вторая форма в значительной степени похожа на 1-ю форму, но запись для каждого (разделитель, likers/dislikers) - где likers/dislikers - логическое значение.
Это означает (я думаю), что есть 2 ^ | items | записи формы секунд для каждой записи из 1-й формы... (многие одноклассники ошибочно (опять же, я думаю..) предположение, что есть такое же количество записей первой и второй форм)
Описание задачи:
Этот шаг будет вычислять в каждом фильме с разделителем квадратичную ошибку (SE), вызванную каждым фильмом.
- Вывод: записи формы (идентификатор популяции, элемент разделителя, элемент, квадрат ошибки по элементу с учетом разделения на сплиттер).
Подсказка:
предположим, что существует строка, которая предшествует (в порядке сортировки систем) любой идентификатор фильма с разделителем.
Это должно быть сделано на одном этапе создания карты!
дополнительный фон:
Это было изучено в контексте "Netflix Challange"
Определение SE:
РЕДАКТИРОВАТЬ: дополнительный материал по проблеме [некоторое описание проблемы netflix и математическая информация о проблеме] можно найти в эта ссылка [особенно слайд 12-24]
EDIT2: отметим, что, поскольку мы используем map/reduce, мы не можем предположить, что что-либо о записях ORDER будет обработано [как на карте, так и на уменьшении].