Java Open Source Text Mining Frameworks

Я хочу знать, какая лучшая Java-платформа с открытым исходным кодом для Text Mining, использовать botg Machine Learning и словарные методы.

Я использую Mallet, но документации не так много, и я не знаю, будет ли он соответствовать всем моим требованиям.

Ответ 1

Я честно считаю, что несколько ответов, представленных здесь, очень хороши. Однако для выполнения моих требований я решил использовать Apache UIMA с ClearTK. Он поддерживает несколько методов ML, и у меня нет проблем с лицензиями. Кроме того, я могу сделать обертки для других методологий ML, и я использую преимущества UIMA-структуры, которая очень хорошо организована и быстро.

Спасибо всем за ваши интересные ответы.

С наилучшими пожеланиями, ukrania

Ответ 2

Хотя это не специализированная структура интеллектуального анализа текста, Weka имеет ряд классификаторов, обычно используемых в задачах интеллектуального анализа текста, таких как: SVM, kNN, многомиллионные NaiveBayes и др.

Он также имеет несколько фильтров для wok с текстовыми данными, такими как фильтр StringToWordVector, который может выполнять преобразование TF/IDF.

Подробнее читайте Weka wiki для веб-сайта.

Ответ 3

Возможно, посмотрите Java Open Source NLP и инструменты для разработки текста.

Ответ 4

Я использовал LingPipe - набор библиотек Java для лингвистического анализа человеческого языка - - для интеллектуального анализа текста (и других связанных) задач.

Это хорошо документированный программный пакет очень, и сайт содержит несколько руководств, которые подробно объясняют, как выполнить определенную задачу с LingPipe, например названное распознавание объектов. Существует также группа новостей, в которой вы можете опубликовать любой вопрос о программном обеспечении (или связанные с НЛП задачи) и получить оперативный ответ от авторов самого пакета; и, конечно, blog.

Исходный код также очень прост в использовании и хорошо документирован, что для меня всегда является большим плюсом.

Что же касается алгоритмов машинного обучения, то от Naïve Bayes есть много до условное случайное поле. С другой стороны, для алгоритмов сопоставления слов они имеют ExactDicitonaryChunker, который представляет собой реализацию алгоритма Aho-Corasich (очень, очень быстрый алгоритм для этой задачи).

В целом, я думаю, что это один из лучших пакетов программного обеспечения NLP для Java (я не использовал каждый отдельный пакет, который там, поэтому я не могу сказать, что это лучше всего), и я определенно рекомендую его для задача, которую вы имеете под рукой.

Ответ 5

Возможно, вы уже знаете о GATE: http://gate.ac.uk/

... но это то, что мы использовали (на моей дневной работе) для множества проблем с текстовым поиском. Это довольно гибкий и открытый.

Ответ 6

Я построил максимальный энтропийный идентификатор распознавания сущности для данных CoNLL, используя OpenNLP MaxEnt http://sourceforge.net/projects/maxent/ для курса один раз.

Требуется много предварительная обработка данных с помощью пользовательских скриптов perl, однако, все функции, извлеченные в красивые аккуратные числовые векторы.

Ответ 7

Мы используем lucene для обработки прямых трансляций из Интернета. У этого есть родной java api.

http://lucene.apache.org/java/docs/

Затем вы можете использовать mahout, который представляет собой набор алгоритмов обучения machien, которые работают поверх lucene.

http://lucene.apache.org/mahout/