Подтвердить что ты не робот

Что такое формат данных CoNLL?

Я новичок в разработке текста. Я использую банку с открытым исходным кодом (Mate Parser), которая дает мне результат в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые результаты, но не в состоянии понять формат данных CoNLL. Может ли кто-нибудь помочь мне в понимании формата данных CoNLL? Любые указатели будут оценены.

4b9b3361

Ответ 1

Существует много разных CoNLL, так как CoNLL - это отдельная совместная задача каждый год. Формат для CoNLL 2009 описан здесь. Каждая строка представляет одно слово с серией полей, разделенных табуляцией. _ указывают пустые значения. Руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

Определение некоторых из этих столбцов происходит из более ранних общих задач ( CoNLL-U, который расширяет формат CoNLL-X.