Название в значительной степени подводит итог. Я заметил, что в некоторых документах люди ссылались на схему кодирования BILOU для NER в отличие от типичной схемы тегов BIO (например, эта статья Ратинова и Рот в 2009 году http://cogcomp.cs.illinois.edu/page/publication_view/199)
От работы с данными CoNLL 2003 года я знаю, что
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
Пока мне сказали, что слова в BILOU означают
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
Я также видел, как люди ссылаются на другой тег
E - 'end'
и использовать его одновременно с тегом 'last'.
Я новичок в литературе NER, но мне не удалось найти что-то, что ясно объясняет эти теги. Мои вопросы, в частности, касаются того, что такое различие между "последними" и "конечными" тегами, и что означает тег "unit".