У меня есть стек PDF файлов - потенциально сотни или тысячи. Они не все отформатированы одинаково, но любой из них МОЖЕТ иметь одну или несколько таблиц с интересной информацией, которую я хотел бы собирать в отдельную базу данных.
Конечно, я знаю, что мне нужно написать что-то для этого. Perl - вариант для меня - или, возможно, Java. Меня не волнует какой язык, пока он свободен (или дешево с бесплатным пробным периодом, чтобы он соответствовал моим целям).
Я смотрю на CAM:: Parse (используя клубнику Perl), но я не уверен, как использовать его для поиска и извлечения таблиц из файлов. Я полагаю, что у меня есть предпочтение Perl, но на самом деле я хочу что-то, что работает надежно, и с легкостью выполнять строковые манипуляции с.
Что такое хороший подход к чему-то подобному? Я нахожусь в квадрате, поэтому, если java (или python и т.д.) Имеют лучшие крючки, сейчас самое подходящее время узнать об этом. Общие указатели хорошие; стартовый код будет очень предпочтительным.