spaCy тегирует каждый из Token
в Document
с частью речи (в двух разных форматах, один из которых хранится в свойствах pos
и pos_
Token
, а другой хранится в свойства tag
и tag_
) и синтаксическую зависимость от его токена .head
(сохраненного в свойствах dep
и dep_
).
Некоторые из этих тегов не требуют пояснений, даже для кого-то вроде меня без фона лингвистики:
>>> import spacy
>>> en_nlp = spacy.load('en')
>>> document = en_nlp("I shot a man in Reno just to watch him die.")
>>> document[1]
shot
>>> document[1].pos_
'VERB'
Другие... не являются:
>>> document[1].tag_
'VBD'
>>> document[2].pos_
'DET'
>>> document[3].dep_
'dobj'
Хуже того, официальные документы не содержат даже списка возможных тегов для большинства этих свойств, а также значений любого из их. Они иногда упоминают, какой стандарт токенизации они используют, но эти утверждения в настоящее время не совсем точны, и, кроме того, стандарты сложны для отслеживания.
Каковы возможные значения свойств tag_
, pos_
и dep_
, и что они означают?