Я новичок в обработке естественного языка. Мне нужно извлечь существительные фразы из текста. Далеко я использовал открытый nlp chunking parser для разбора моего текста, чтобы получить структуру Tree. Но я не могу извлечь существительное фразы из древовидной структуры, есть ли какой-либо шаблон регулярного выражения в открытом nlp, чтобы я мог использовать его для извлечения существительных фраз.
Ниже приведен код, который я использую
InputStream is = new FileInputStream("en-parser-chunking.bin");
ParserModel model = new ParserModel(is);
Parser parser = ParserFactory.create(model);
Parse topParses[] = ParserTool.parseLine(line, parser, 1);
for (Parse p : topParses){
p.show();}
Здесь я получаю вывод как
(TOP (S (S (ADJP (JJ welcome) (PP (TO to) (NP (NNP Big) (данные NNP.))))) (S (NP (PRP We)) (VP (VP (VP) VBP) (VP (работа VBG) (PP (IN on) (NP (NNP Natural) (NNP Language) (NNP Processing.can))))) (NP (DT some) (CD один) (помощь NN)) (NP (PR)) (PP (IN in) (S (VP (экстракция VBG)) (NP (DT) (NN-существительное) (фразы NNS)) (PP (IN from) (NP (DT the) (NN дерево) (WP stucture.))))))))))
Может кто-нибудь, пожалуйста, помогите мне в получении существительных фраз, таких как NP, NNP, NN и т.д. Может кто-нибудь скажет мне, что мне нужно использовать любой другой NP Chunker для получения именных фраз? Есть ли какой-либо шаблон регулярного выражения для достижения то же самое.
Пожалуйста, помогите мне в этом.
Заранее спасибо
Gouse.