Итак, состояние, в котором я выпущен, содержит кучу данных в формате PDF, но, что еще хуже, большинство (всех?) PDF файлов выглядят буквами, напечатанными в Office, печатными/факсимильными сообщениями, а затем отсканированными (наши правительство в лучшем случае?). Сначала я думал, что я сумасшедший, но потом я начал видеть многочисленные pdf файлы, которые "наклонены", как будто кто-то не получил их на сканере должным образом. Итак, я подумал, что лучшее, что можно получить от фактического текста, было бы превратить каждую страницу в изображение.
Очевидно, что это должно быть автоматизировано, и я предпочел бы придерживаться Python, если это возможно. Если Ruby или Perl имеют ту или иную форму реализации, которая слишком велика, чтобы уйти, я могу пойти по этому пути. Я попытался использовать pyPDF для извлечения текста, что, очевидно, не принесло мне много пользы. Я пробовал swftools, но изображения, которые я получаю от этого, просто стесняются полностью непригодного использования. Кажется, что шрифты разрушаются при конвертации. Я даже не очень забочусь о формате изображения на выходе, пока они относительно легки и читабельны.