Я новичок в разработке текста. Я использую банку с открытым исходным кодом (Mate Parser), которая дает мне результат в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я могу понять некоторые результаты, но не в состоянии понять формат данных CoNLL. Может ли кто-нибудь помочь мне в понимании формата данных CoNLL? Любые указатели будут оценены.
Что такое формат данных CoNLL?
Ответ 1
Существует много разных CoNLL, так как CoNLL - это отдельная совместная задача каждый год. Формат для CoNLL 2009 описан здесь. Каждая строка представляет одно слово с серией полей, разделенных табуляцией. _
указывают пустые значения. Руководство Mate-Parser говорит, что он использует первые 12 столбцов CoNLL 2009:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
Определение некоторых из этих столбцов происходит из более ранних общих задач ( CoNLL-U, который расширяет формат CoNLL-X.