В чем разница между маркировкой POS и мелким анализом?

В настоящее время я преподаю курс естественного языка в своем университете и все еще смущен некоторой базовой концепцией. Я получил определение POS Tagging из Основы статистической обработки естественного языка:

Маркировка - это задача маркировки (или пометки) каждого слова в предложении с соответствующей частью речи. Мы решаем, является ли каждое слово существительное, глагол, прилагательное и т.д.

Но я не могу найти определение Shallow Parsing в книге, так как он также описывает мелкий синтаксический анализ как одну из утилит POS Tagging. Поэтому я начал искать в Интернете и не нашел прямого объяснения мелкого разбора, но в Wikipedia:

Малый синтаксический анализ (также chunking, "light parsing" ) - это анализ предложения, который идентифицирует составляющие (группы существительных, глаголы, группы глаголов и т.д.), но не указывает их внутреннюю структуру, а также их роль в основное предложение.

Я откровенно не вижу разницы, но это может быть из-за моего английского или просто не понимающего простой базовой концепции. Может ли кто-нибудь объяснить разницу между мелким разбором и маркировкой POS? Неглубокий синтаксический анализ часто также называется неглубоким семантическим анализом?

Спасибо раньше.

Ответ 1

Пометка POS дала бы тег POS каждому слову во входном предложении.

Разбор предложения (например, с помощью stanford pcfg) преобразует предложение в дерево, листья которого будут содержать теги POS (которые соответствуют словам в предложении), но остальная часть дерева расскажет вам, как именно эти слова объединяются, чтобы составить общее предложение. Например, прилагательное и существительное могут сочетаться с "Существительной фразой", которая может сочетаться с другим прилагательным для формирования другой фразы (например, быстрой коричневой лисицы) (точный способ объединения штук зависит от рассматриваемого парсера). < ш > Вы можете видеть, как выглядит синтаксический анализатор на http://nlp.stanford.edu:8080/parser/index.jsp

Неглубокий синтаксический анализатор или "chunker" находится где-то между этими двумя. Обычный тег POS очень быстрый, но не дает вам достаточно информации, и полный раздутый парсер медленный и дает вам слишком много. Теггер POS можно рассматривать как парсер, который возвращает только нижний уровень дерева разбора. Цуккер можно рассматривать как синтаксический анализатор, который вместо этого возвращает вам другой уровень дерева разбора. Иногда вам просто нужно знать, что куча слов вместе образуют сущностную фразу, но не заботятся о субструктуре дерева внутри этих слов (т.е. какие слова являются прилагательными, определителями, существительными и т.д. И как они сочетаются), В таких случаях вы можете использовать chunker, чтобы получить именно ту информацию, которая вам нужна, вместо того, чтобы тратить время на создание полного дерева разбора для предложения.

Ответ 2

Пометка POS - это процесс, определяющий, какой тип каждого токена из текста, например. NOUN, VERB, DETERMINER и т.д. Токен может быть словом или пунктуацией.
Между тем мелкий разбор или фрагментация - это процесс, разделяющий текст на синтаксически связанную группу.

Позиционный вывод Pos

My/PRP $dog/NN нравится /VBZ его/PRP $food/NN./.

Выход канала

[NP My Dog] [VP нравится] [NP его еда]

Ответ 3

Рамка ограничений грамматики является иллюстративной. В своей простейшей, самой грубой форме он принимает в качестве входного POS-помеченного текста и добавляет то, что вы могли бы назвать тегом Part of Clause. Например, для прилагательного он может добавить @NN>, чтобы указать, что он является частью NP, головное слово которого находится справа.

Ответ 4

В POS_tagger мы помещаем слова, используя "теги", такие как {существительное, глагол, adj, adv, prob...} в то время как мелкий парсер пытается определить подкомпоненты, такие как Name Entity и фразы в предложении, как "Я в настоящее время (беру курс" Естественный язык "(курс обучения языку) в (мой университет)) и (все еще путаюсь с какой-то базовой концепцией.)"

Ответ 5

Д. Юрафски и Дж. Х. Мартин говорят в своей книге, что неглубокий синтаксический анализ (частичный анализ) - это синтаксический разбор, который не извлекает всю возможную информацию из предложение, но просто извлекайте ценные данные в конкретном случае.

Chunking - всего лишь один из подходов к мелкому разбору. Как уже упоминалось, он извлекает только информацию об основных нерекурсивных фразах (например, фразы глагола или существительные фразы).

Другие подходы, например, создают плоские деревья синтаксического разбора. Эти деревья могут содержать информацию о тегах части речи, но отложить решения, которые могут потребовать семантические или контекстуальные факторы, такие как вложения PP, координационные двусмысленности и номинальные составные анализы.

Итак, неглубокий синтаксический разбор - это синтаксический разбор, который создает частичное дерево разбора. Примером такого разбора является Chunking.