Недавно я пытался тренировать n-граммовые объекты с помощью NLP Stanford Core. Я следил за следующими учебниками - http://nlp.stanford.edu/software/crf-faq.shtml#b
С этим я могу указать только токены unigram и класс, к которому он принадлежит. Может ли кто-нибудь провести меня, чтобы я мог продлить его до n-граммов. Я пытаюсь извлечь известные объекты, такие как имена фильмов из набора данных чата.
Прошу вас посоветовать, если я неправильно интерпретирую учебники Стэнфорда, и то же самое можно использовать для обучения n-gram.
То, что я застрял, - это следующее свойство
#structure of your training file; this tells the classifier
#that the word is in column 0 and the correct answer is in
#column 1
map = word=0,answer=1
Здесь первый столбец - это слово (униграмма), а второй столбец является сущностью, например
CHAPTER O
I O
Emma PERS
Woodhouse PERS
Теперь, когда мне нужно обучать известные объекты (например, имена фильмов), например Халк, Титаник и т.д. в качестве фильмов, с этим подходом было бы легко. Но если мне нужно тренировать , я знаю, что вы делали прошлым летом или Детский день, какой лучший подход?