Мы используем iTextSharp с приложением С# WinForms для анализа файла PDF. Используя iTextSharp, я могу легко извлечь текстовые данные из файла PDF. Предположим, файл PDF содержит изображение, окруженное двумя строками текста. В этом случае я не смог извлечь информацию об изображении.
Мое требование:
- Получить структурные элементы PDF файла
- Выполняет ли каждый тип текста, изображения, таблицы или другого текста
Например, структурные элементы похожи на следующие:
text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4
Если я могу получить информацию в таком формате, я могу легко понять информацию о тексте, изображении, таблице, заголовке или нижнем колонтитуле.
Итак, можно ли получить такую информацию с помощью iTextSharp? Если да, пожалуйста, просветите меня об этом. В противном случае вы могли бы предложить другие инструменты, способные удовлетворить это требование?
Спасибо всем,
Сараванан