Я читаю, что я могу создавать векторы mahout из индекса lucene, который можно использовать для применения алгоритмов кластеризации mahout. http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text
Я хотел бы применить алгоритм кластеризации K-mean в документах в моем индексе Lucene, но неясно, как я могу применить этот алгоритм (или иерархическую кластеризацию) для извлечения значимых кластеров с этими документами.
На этой странице http://cwiki.apache.org/confluence/display/MAHOUT/k-Means говорит, что алгоритм принимает два входных каталога: один для точек данных и один для начальных кластеров. Мои данные - это документы? Как я могу "объявить", что это мои документы (или их векторы), просто возьмите их и выполните кластеризацию?
Извините заранее за мою плохую грамматику
Спасибо