Есть ли библиотека С++ для извлечения текста из PDF файла, такого как PDFBox для Java?

В прошлом году я сделал приложение на Java с помощью PDFBox, чтобы получить исходный текст в некоторых файлах PDF, и теперь мне нужно перенести это приложение на С++.

Я хотел знать, какая лучшая альтернатива С++ для достижения того, что мне нужно.

Я приведу пример, если это поможет:

Большинство файлов будут выглядеть так: http://www.jumbala.net/backup/league.pdf

С помощью PDFBox, используя этот файл, каждая строка, прочитанная на стр. 2, и большая часть страницы 3 будут выводить все данные строки, разделенные пробелом, а не хранить его в сетке, как сейчас.

Итак, первая соответствующая строка на странице 2 будет выглядеть так:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

или что-то в этом роде, поскольку в порядке, в котором они появляются, происходят незначительные изменения, но меня это не волнует, пока похожие строки выводятся одинаково, поскольку я просто разбираю их и помещаю нужные значения в разные переменные.

Итак, зная все это, есть ли библиотека, которую я могу использовать в программе на С++ для получения похожих результатов?

Изменить:. Посмотрев ссылку sacredFaith на http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file и попробовав ее, я получаю странное вывод такого типа для файла примера, о котором я упоминал ранее:

http://www.jumbala.net/backup/league.pdf.txt

Части, которые мне действительно нужны, находятся в странных символах в начале. Используя Adobe Acrobat Reader X и используя Save As... Text (доступно), я получаю следующий результат:

http://www.jumbala.net/backup/league_good.pdf.txt

Это примерно то, что я получаю на Java, используя PDFBox, и то, что я хочу получить в качестве вывода на С++.

Ответ 1

Xpdf - это приложение или библиотека С++, которая включает инструменты для извлечения простого текста из файла PDF.

Ответ 2

С тех пор, что вы ищете: PoDoFo - это библиотека С++ для разбора/чтения/изменения или создания pdf файлов. Библиотека является межплатформенной.

Ответ 3

Я никогда не использовал следующее, но после некоторого Googling я нашел это:

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file