Я пытаюсь извлечь именованные объекты из своего текста, используя NLTK. Я считаю, что NLTK NER не очень точен для моей цели, и я хочу добавить еще несколько тегов. Я пытался найти способ обучить собственный NER, но, похоже, я не могу найти нужные ресурсы. У меня есть пара вопросов относительно NLTK -
- Могу ли я использовать свои собственные данные для обучения именному распознавателю Entity Recognizer в NLTK?
- Если я могу тренироваться с использованием моих собственных данных, это файл named_entity.py, который нужно изменить?
- Должен ли формат входного файла быть в IOB, например. Eric NNP B-PERSON?
- Есть ли какие-либо ресурсы - помимо nLTK cookbook и nlp с питоном, который я могу использовать?
Я бы очень признателен за помощь в этом отношении