Подтвердить что ты не робот

Извлечение содержимого таблицы из коллекции файлов PDF

У меня есть стек PDF файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но любой из них МОЖЕТ иметь одну или несколько таблиц с интересной информацией, которую я хотел бы собирать в отдельную базу данных.

Конечно, я знаю, что мне нужно написать что-то для этого. Perl - вариант для меня - или, возможно, Java. Меня не волнует какой язык, пока он свободен (или дешево с бесплатным пробным периодом, чтобы он соответствовал моим целям).

Я смотрю на CAM:: Parse (используя клубнику Perl), но я не уверен, как использовать его для поиска и извлечения таблиц из файлов. Я полагаю, что у меня есть предпочтение Perl, но на самом деле я хочу что-то, что работает надежно, и с легкостью выполнять строковые манипуляции с.

Что такое хороший подход к чему-то подобному? Я нахожусь в квадрате, поэтому, если java (или python и т.д.) Имеют лучшие крючки, сейчас самое подходящее время узнать об этом. Общие указатели хорошие; стартовый код будет очень предпочтительным.

4b9b3361

Ответ 1

Итак: идите искать Tabula. Если какие-либо инструменты могут делать то, что вы хотите, в это время Tabula, вероятно, является одним из лучших для этой работы!


Update

Недавно я создал Asciinema screencast, демонстрирующий использование интерфейса командной строки Tabula для извлечения большой таблицы из PDF как CSV:

asciicast

(Нажмите на изображение выше, чтобы увидеть его работу. Если он работает слишком быстро, чтобы вы могли прочитать весь текст, используйте кнопку "Пауза" ( || -symbol).)

Здесь размещается: