Используя трансформаторы Spark ML, я пришел к DataFrame
, где каждая строка выглядит так:
Row(object_id, text_features_vector, color_features, type_features)
где text_features
- разреженный вектор весовых коэффициентов, color_features
- это небольшой 20-элементный (один горячий кодировщик) плотный вектор цветов, а type_features
также является плотным вектором с одним горячим кодировщиком типов.
Каким будет хороший подход (используя средства Spark) для объединения этих функций в один большой массив, чтобы я измерял такие вещи, как косинус расстояние между любыми двумя объектами?