Что означают теги BILOU в распознавании имен?

Название в значительной степени подводит итог. Я заметил, что в некоторых документах люди ссылались на схему кодирования BILOU для NER в отличие от типичной схемы тегов BIO (например, эта статья Ратинова и Рот в 2009 году http://cogcomp.cs.illinois.edu/page/publication_view/199)

От работы с данными CoNLL 2003 года я знаю, что

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

Пока мне сказали, что слова в BILOU означают

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

Я также видел, как люди ссылаются на другой тег

E - 'end'

и использовать его одновременно с тегом 'last'.

Я новичок в литературе NER, но мне не удалось найти что-то, что ясно объясняет эти теги. Мои вопросы, в частности, касаются того, что такое различие между "последними" и "конечными" тегами, и что означает тег "unit".

Ответ 1

На основе issue и patch в Clear TK, кажется, что BILOU означает "Начальные, внутренние и последние токены фрагментов с несколькими токенами, Единицы длины и снаружи" (выделено курсивом), Например, фрагмент, обозначенный скобками

(foo foo foo) (bar) no no no (bar bar)

может быть закодирован с помощью BILOU как

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

Ответ 2

Я хотел бы добавить некоторый опыт сравнения схем BIO и BILOU. Мой эксперимент был только на одном наборе данных и не был репрезентативным.

В моем наборе данных содержится около 35 тысяч коротких высказываний (2-10 токенов) и аннотируются с использованием 11 разных тегов. Другими словами, существует 11 названных объектов.

Используемые функции включают в себя слово, левое и правое 2 грамма, 1-8 символов (кроме средних), особенности фигуры и т.д. Немногие сущности также поддерживают справочник географических названий.

Я перетасовал набор данных и разделил его на 80/20 частей: обучение и тестирование. Этот процесс повторялся 5 раз, и для каждого объекта я записывал Precision, Recall и F1-measure. Производительность измерялась на уровне сущности, а не на уровне маркера, как в документе Ratinov and Roth, 2009.

Программное обеспечение, которое я использовал для обучения модели, это CRFSuite. Я использовал решатель L-BFGS с c1 = 0 и c2 = 1.

Прежде всего, результаты испытаний, сравниваемые для 5-ти складки, очень похожи. Это означает, что от запуска до запуска мало вариабельности, что хорошо. Во-вторых, схема BIO выполнялась очень аналогично схеме BILOU. Если есть какая-либо значительная разница, возможно, она находится на третьем или четвертом разряде после периода в Precision, Recall и F1-measure.

Заключение: В моем эксперименте схема BILOU не лучше (но и не хуже), чем схема BIO.

Ответ 3

B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

BILOU совпадает с BMEWO.

Существует также BMEWO +, которые добавляют дополнительную информацию об окружающем классе слов к внешним маркерам (таким образом, "O plus" )

Подробнее здесь https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/