Классифицировать данные с помощью Apache Mahout

Я пытаюсь решить простую задачу классификации.

Проблема:
У меня есть набор текста, и я должен классифицировать их на основе содержимого.

Решение с использованием Mahout:
Я понял, что мне нужно преобразовать вход в файл последовательности для генерации модели. Да, я смог это сделать. Теперь, как я классифицирую свои тестовые данные? Пример 20News только проверяет правильность. Но я хочу сделать фактическую классификацию.
Я не уверен, что мне нужно написать код или использовать некоторые существующие классы, доступные для классификации набора тестов.

Ответ 1

Мне не нравится подключаться к моей собственной работе, но мы помещаем весь раздел в Mahout в Action о классификации. Теория, примеры кода, практические примеры, даже реализация всей фермы серверов.

Вы можете получить предварительную версию на http://www.manning.com/owen/

Ответ 2

У меня есть аналогичная проблема.

Запуск

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

будет классифицировать текстовый файл на основе модели.

Это может привести вас к дальнейшему дальнейшему продвижению, но я предполагаю, что, как и я, вы хотите классифицировать весь груз документов и хотите, чтобы результат был в полезном формате.

Возможно, вам нужно запрограммировать немного java для этого. У кого-то есть пример, который выглядит так, как будто он будет делать то, что я хочу, в https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java