У меня есть тела классифицированного текста. Из них я создаю векторы. Каждый вектор соответствует одному документу. Векторные компоненты - это вес слов в этом документе, рассчитанные как значения TFIDF. Затем я построю модель, в которой каждый класс представлен одним вектором. Модель имеет столько векторов, сколько классов в корпусах. Компонент вектор модели вычисляется как среднее из всех значений компонентов, взятых из векторов этого класса. Для неклассифицированных векторов я определяю сходство с модельным вектором, вычисляя косинус между этими векторами.
Вопросы:
1) Можно ли использовать Euclidean Distance между неклассифицированным и модельным вектором, чтобы вычислить их сходство?
2) Почему евклидово расстояние не может использоваться как мера подобия вместо косинуса угла между двумя векторами и наоборот?
Спасибо!