Я только начал с OpenNLP. Мне нужно создать простую обучающую модель для распознавания сущностей.
Чтение документа здесь http://opennlp.apache.org/documentation/1.5.3/manual/opennlp.html#tools.namefind Я вижу этот простой текст для обучения модели:
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of Elsevier N.V. , the Dutch publishing group .
<START:person> Rudolph Agnew <END> , 55 years old and former chairman of Consolidated Gold Fields PLC ,
was named a director of this British industrial conglomerate .
Вопросы: два:
-
Почему мне нужно указывать имена людей в текстовом (фразовом) контексте? Почему бы не написать имя человека по одному для каждой строки? как:
<START:person> Robert <END> <START:person> Maria <END> <START:person> John <END>
-
Как я могу добавить дополнительную информацию к этому имени? Например, я хотел бы сохранить информацию Male/Female для каждого имени.
(Я знаю, что есть системы, которые пытаются понять это, прочитав последнюю букву, например "a" для Женский и т.д., но я бы хотел добавить ее сам)
Спасибо.