У меня есть набор данных (user, product, review)
, и я хочу передать его в алгоритм ALS mllib.
Алгоритм требует, чтобы пользователи и продукты были числами, а мои - именами строк и строковыми SKU.
Сейчас я получаю отдельных пользователей и SKU, а затем присваиваю им числовые идентификаторы вне Spark.
Мне было интересно, есть ли лучший способ сделать это. Один из подходов, о котором я думал, заключается в написании настраиваемого RDD, который по существу перечисляет от 1 до n
, а затем вызывает zip на двух RDD.