Можно ли обучить систему Stanford NER распознаванию более названных типов сущностей?

Сейчас я использую библиотеки NLP (stanford и nltk) Стэнфорд Я видел демонстрационную часть, но просто хочу спросить, можно ли использовать ее для идентификации более типов сущностей.

Таким образом, в настоящее время система sterford NER (как демонстрационные шоу) может распознавать объекты как личность (имя), организацию или местоположение. Но признанные организации ограничены университетами или некоторыми крупными организациями. Мне интересно, могу ли я использовать его API для написания программы для большего количества типов сущностей, например, если мой ввод "Яблоко" или "Квадрат" может распознать его как компанию.

Нужно ли мне составлять собственный набор учебных материалов?

Кроме того, если я когда-либо захочу извлечь сущности и их отношения между собой, я чувствую, что должен использовать парсер синтаксиса stanford. Я имею в виду, сначала извлекать названные объекты и другие части, помеченные как "существительное", и находить отношения между ними.

Я прав.

Спасибо.

Ответ 1

Да, вам нужен ваш собственный набор. Предварительно обученные модели Стэнфорда признают только слово "Стэнфорд" как именованное сущность, потому что они прошли обучение по данным, имеющим это слово (или очень похожие слова в соответствии с набором функций, которые они используют, я не знаю, что это такое) отмеченный как именованный объект.

Как только у вас будет больше данных, вам нужно поместить его в правильном формате, описанном в этом вопросе, и в учебнике Стэнфорда.

Ответ 2

Вы можете легко обучить свой собственный массив данных.

В FAQ Стэнфордского НЭР первый вопрос - как подготовить нашу собственную модель для NER

Ссылка http://nlp.stanford.edu/software/crf-faq.shtml

Итак, например, вы могли бы дать данные обучения, например

Продукт OBJ
of O
Microsoft ORG

Аналогичным образом вы можете создать свои собственные данные обучения и построить модель, а затем использовать ее для получения желаемого результата