Можно ли получить структурные элементы из файла PDF с помощью iTextSharp?

Мы используем iTextSharp с приложением С# WinForms для анализа файла PDF. Используя iTextSharp, я могу легко извлечь текстовые данные из файла PDF. Предположим, файл PDF содержит изображение, окруженное двумя строками текста. В этом случае я не смог извлечь информацию об изображении.

Мое требование:

Получить структурные элементы PDF файла
Выполняет ли каждый тип текста, изображения, таблицы или другого текста

Например, структурные элементы похожи на следующие:

text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4

Если я могу получить информацию в таком формате, я могу легко понять информацию о тексте, изображении, таблице, заголовке или нижнем колонтитуле.

Итак, можно ли получить такую информацию с помощью iTextSharp? Если да, пожалуйста, просветите меня об этом. В противном случае вы могли бы предложить другие инструменты, способные удовлетворить это требование?

Спасибо всем,

Сараванан

private static PdfObject FindImageInPDFDictionary(PdfDictionary pg) { PdfDictionary res = (PdfDictionary)PdfReader.GetPdfObject(pg.Get(PdfName.RESOURCES)); PdfDictionary xobj = (PdfDictionary)PdfReader.GetPdfObject(res.Get(PdfName.XOBJECT)); if (xobj != null) { foreach (PdfName name in xobj.Keys) { PdfObject obj = xobj.Get(name); if (obj.IsIndirect()) { PdfDictionary tg = (PdfDictionary)PdfReader.GetPdfObject(obj); PdfName type = (PdfName)PdfReader.GetPdfObject(tg.Get(PdfName.SUBTYPE)); //image at the root of the pdf if (PdfName.IMAGE.Equals(type)) { return obj; }// image inside a form else if (PdfName.FORM.Equals(type)) { return FindImageInPDFDictionary(tg); } //image inside a group else if (PdfName.GROUP.Equals(type)) { return FindImageInPDFDictionary(tg); } } } } return null; }

Ответ 1