Стратегии распознавания собственных существительных в НЛП

Мне интересно узнать больше о Natural Language Processing (NLP), и мне любопытно, есть ли в настоящее время какие-либо стратегии для распознавания собственных существительных в текст, который не основан на распознавании словарей? Кроме того, может ли кто-нибудь объяснить или связать ресурсы, которые объясняют текущие методы на основе словаря? Кто является авторитетными экспертами по НЛП или каковы окончательные ресурсы по этому вопросу?

Ответ 1

Задача определения правильной части речи для слова в тексте называется Часть тегов речевых сообщений. Например, Brill tagger использует смесь словаря (словарного запаса) и контекстных правил. Я считаю, что некоторые важные начальные словарные слова для этой задачи - это слова остановки. Когда у вас есть (в основном правильные) части речи для ваших слов, вы можете начать строить большие структуры. Эта отраслевая книга отличает распознавание именных фраз (NP) и распознавание названных объектов. О учебниках: Allen Natural Language Understanding - это хорошая, но немного устаревшая книга. Основы статистической обработки естественного языка - хорошее введение в статистическую НЛП. Речевая и языковая обработка является более строгой и, возможно, более авторитетной. Ассоциация вычислительной лингвистики является ведущим научным сообществом по вычислительной лингвистике.

Ответ 2

Помимо подхода на основе словаря, мне приходят два других:

Шаблонные подходы (в простой форме: все, что капитализируется, является собственным существительным)
Подходы к механическому обучению (отметьте собственные имена существительных в учебном корпусе и обучите классификатор)

Поле в основном называется извлечением именованного объекта и часто считается подполем для извлечения информации. Хорошей отправной точкой для разных областей НЛП является, как правило, соответствующая глава в Оксфордский справочник по вычислительной лингвистике:

Оксфордский справочник по вычислительной лингвистике http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg

Ответ 3

Попробуйте найти "распознанное распознавание сущности" - это термин, используемый в литературе НЛП для такого рода вещей.

Ответ 4

Это зависит от того, что вы подразумеваете под словарным базисом.

Например, одной из стратегий было бы взять вещи, которые не находятся в словаре, и попытаться исходить из предположения, что они являются надлежащими существительными. Если это приведет к разумному анализу, рассмотрите допущение, предварительно подтвержденное и продолжающее идти, в противном случае сделайте вывод, что это не так.

Другие идеи:

В предметной позиции любой простой субъект без определителя является хорошим кандидатом.
То же самое в предлогающих фразах
В любой позиции основой притяжательного определителя (например, Боба в "сестре Боба" ) является хороший кандидат.

- MarkusQ

Ответ 5

некоторые предложенные инструментальные средства: 1. Opennlp: для вашей задачи есть компонент Named Entity Recognition 2. LingPipe: также компонент NER для него 3. Пакет Stanford NLP: отличный пакет для академического использования, возможно, не коммерческий. 4. nltk: пакет NLP Python

Ответ 6

если у вас есть предложение, такое как "кто является воротами счета", И если вы примените к нему часть речевого метки. Он даст ответ как

"who/WP is/VBZ bill/NN gate/NNS?/."

U можно попробовать в Интернете http://cst.dk/online/pos_tagger/uk/

Итак, вы получаете то, что все существительные в этом предложении. Теперь вы можете легко извлечь эти существительные с помощью некоторого алгоритма. Я предлагаю использовать python, если вы используете обработку на естественном языке. Он имеет NLTK (набор инструментов для естественного языка), с которым вы можете работать.

Ответ 7

Если вы заинтересованы в реализации обработки естественного языка, а python - ваш язык программирования, то это может быть очень информативным ресурсом: http://www.youtube.com/watch?v=kKe4M4iSclc

Ответ 8

Хотя это для бенгальского языка, но он может нарисовать общую процедуру, определяющую собственное имя. Поэтому я надеюсь, что это будет полезно для вас. Пожалуйста, проверьте следующую ссылку: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html