В прошлом году я сделал приложение на Java с помощью PDFBox, чтобы получить исходный текст в некоторых файлах PDF, и теперь мне нужно перенести это приложение на С++.
Я хотел знать, какая лучшая альтернатива С++ для достижения того, что мне нужно.
Я приведу пример, если это поможет:
Большинство файлов будут выглядеть так: http://www.jumbala.net/backup/league.pdf
С помощью PDFBox, используя этот файл, каждая строка, прочитанная на стр. 2, и большая часть страницы 3 будут выводить все данные строки, разделенные пробелом, а не хранить его в сетке, как сейчас.
Итак, первая соответствующая строка на странице 2 будет выглядеть так:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
или что-то в этом роде, поскольку в порядке, в котором они появляются, происходят незначительные изменения, но меня это не волнует, пока похожие строки выводятся одинаково, поскольку я просто разбираю их и помещаю нужные значения в разные переменные.
Итак, зная все это, есть ли библиотека, которую я могу использовать в программе на С++ для получения похожих результатов?
Изменить:. Посмотрев ссылку sacredFaith на http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file и попробовав ее, я получаю странное вывод такого типа для файла примера, о котором я упоминал ранее:
http://www.jumbala.net/backup/league.pdf.txt
Части, которые мне действительно нужны, находятся в странных символах в начале. Используя Adobe Acrobat Reader X и используя Save As... Text (доступно), я получаю следующий результат:
http://www.jumbala.net/backup/league_good.pdf.txt
Это примерно то, что я получаю на Java, используя PDFBox, и то, что я хочу получить в качестве вывода на С++.