Подтвердить что ты не робот

Что такое хорошая библиотека Java для тегов Part-Of-Speech?

Я ищу хороший open source POS Tagger в Java. Вот что я до сих пор придумал.

У кого-нибудь есть рекомендации?

4b9b3361

Ответ 1

Вы хотите пометить POS в определенном домене? Большинство тегов общего назначения проходят обучение по новостному тексту. Как правило, они плохо работают, когда вы используете их в определенных доменах (таких как биомедицинский текст). Существуют и другие тегеры, специально обученные для таких доменов, такие как dTagger (java) для биомедицинского текста.

Для новостного текста Adwait Ratnaparkhi MXPOST очень хорош и является тем, который я бы рекомендовал.

Другие реализации Java включают:

  • MontyLingua
  • Berkeley Parser (Не совсем тег POS, но все полноразмерные парсеры обычно включают в себя тегеры POS. Синтаксические парсеры Google для Java и вы найдете много.)
  • QTag
  • LBJ

OpenNLP и Lingpipe как опубликовано другими плакатами также довольно приличные.

Информацию о состоянии дел по маркировке POS можно найти здесь. Как вы можете видеть LTAG-Spinal (также упоминается еще одним плакатом) на данный момент лучше, но вариации между различными теггерами не так много. Я сам не использовал LTAG.

Также обратите внимание, что базовая производительность для маркировки POS составляет около 90%. Исходный уровень означает: (а) пометить каждое слово наиболее частым тегом POS из лексикона и (b) пометить каждое неизвестное слово как существительное.

Ответ 2

Я использовал OpenNLP с хорошими результатами. Вы также можете проверить MorphAdorner.

Ответ 3

Я использовал LingPipe и Stanford POS Tagger. Позже это самый современный POS Tagger, но, по моему опыту, он слишком медленный (хотя они обеспечивают менее точную модели, которые достаточно быстрые). Конечно, это всегда зависит от того, чего вы пытаетесь достичь, и всегда будет компромисс между скоростью и точностью.

Я также когда-то использовал программное обеспечение NER на основе LBJ и, хотя оно было довольно точным, исходный код был полным беспорядком. Оба источника LingPipe и Stanford очень чисты и хорошо документированы.

Вы также можете взглянуть на LTAG-spinal. Я еще не использовал его, но из описания алгоритма и с указанной точностью он кажется лучше, чем альтернативы, которые у вас есть.

Надеюсь, что это поможет.