У нас есть набор данных, который находится в разреженном представлении и имеет 25 функций и 1 двоичную метку. Например, строка набора данных:
Label: 0
exid: 24924687
Features:
11:0 12:1 13:0 14:6 15:0 17:2 17:2 17:2 17:2 17:2 17:2
21:11 21:42 21:42 21:42 21:42 21:42
22:35 22:76 22:27 22:28 22:25 22:15 24:1888
25:9 33:322 33:452 33:452 33:452 33:452 33:452 35:14
Итак, иногда функции имеют несколько значений, и они могут быть одинаковыми или разными, и веб-сайт сообщает:
Некоторые категориальные функции многозначны (порядок не имеет значения)
Мы не знаем, какова семантика функций и какое значение им присвоено (из-за некоторой озабоченности по поводу конфиденциальности они скрыты от общественности)
Мы знаем только:
Label
означает, что пользователь нажал на рекомендованное объявление или нет.Features
описывает продукт, который был рекомендован пользователю.Task
предназначен для прогнозирования вероятности получения клика пользователем по объявлению продукта.
Любые комментарии по следующим проблемам приветствуются:
- Какой лучший способ импортировать такие наборы данных в структуру данных Python.
- Как работать с многозначными объектами, особенно если они имеют похожие значения, повторенные
k
раз?