Я пытаюсь скопировать таблицы PDF, которые охватывают несколько страниц. Я пробовал много вещей, но лучше всего pdftotext -layout
советовать здесь. Проблема в том, что результирующий текстовый файл нелегко работать, поскольку расположение таблицы отличается от разных страниц, поэтому столбцы не выровнены. Также обратите внимание на отсутствующие значения в строках, начинающихся с "Solsonès":
TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012
COMARCA CODI i NOM EMA GEN FEB MAR ABR MAI JUN JUL AGO SET OCT N
Alt Camp VY Nulles 7,5 5,5 10,9 12,3 16,7 21,6 22,3 24,4 20,1 15,9
Alt Camp DQ Vila-rodona 7,9 5,6 11,0 12,0 16,6 21,6 22,0 24,3 19,9 15,8
Alt Empordà U1 Cabanes 8,2 6,5 11,7 12,6 17,5 22,0 23,1 24,4 20,4 16,6
Alt Empordà W1 Castelló d'Empúries 8,1 6,4 11,6 12,9 17,0 21,1 22,0 23,4 20,1 16,4
[...]
TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012
COMARCA CODI i NOM EMA GEN FEB MAR ABR MAI JUN JUL AGO SET OCT
Baix Empordà DF la Bisbal d'Empordà 6,6 5,3 10,9 12,6 17,2 21,9 22,9 24,6 20,3 16
Baix Empordà UB la Tallada d'Empordà 6,1 5,2 10,7 12,3 16,6 21,3 22,2 23,8 19,7 15
Baix Empordà UC Monells 6,1 4,6 9,9 11,4 16,5 21,7 23,0 24,5 19,6 15
[...]
TEMPERATURA MITJANA MENSUAL ( ºC ) - 2012
COMARCA CODI i NOM EMA GEN FEB MAR ABR MAI JUN JUL AGO SET OCT
[...]
Solsonès CA Clariana de Cardener 4,6 3,3 10,3 10,2 16,7 22,3 d.i.
Solsonès Z8 el Port del Comte (2.316 m) -0,9 -6,3 -0,2 -2,0 5,3 10,5 10,9 13,8 7,8 4,2
Solsonès VO Lladurs 3,0 2,6 9,5 9,0 15,3 21,4 21,6 24,3 17,5 13,0
Solsonès VP Pinós 3,0 1,6 8,9 9,2 15,4 21,1 21,3 23,8 17,6 13,3
Solsonès XT Solsona d.i. 24,3 18,0 13,5
Tarragonès VQ Constantí 7,9 6,0 11,2 13,1 17,1 21,9 22,6 24,6 20,6 16,6
Tarragonès XE Tarragona - Complex Educatiu 10,2 7,8 12,3 14,6 18,3 23,0 24,2 26,2 23,0 * 18,4
Tarragonès DK Torredembarra 9,7 7,7 12,3 14,3 17,9 22,8 24,3 26,2 22,7 18,5
Terra Alta WD Batea 6,3 5,0 11,2 12,1 18,3 23,0 23,3 25,5 20,2 15,9
Terra Alta XP Gandesa 6,6 5,2 11,2 12,2 18,1 22,9 23,4 25,6 20,4 16,0
полный файл для загрузки - UTF8
Таким образом, этот вывод не очень просто разобрать. Какой другой подход доступен?
Кажется, что каждый инструмент, который я использую, способен извлекать информацию о макете ячеек таблицы, но не извлекает информацию о принадлежности к определенному столбцу. Это очень заметно, если ячейки пусты - пустые ячейки не выводятся, вы получаете только непустые "ячейки" с их компоновкой. В самом ли PDF файле содержится эта табличная информация? Если нет, нет смысла искать инструмент, который его извлечет.
Платные решения не могут быть и речи, поскольку в конечном итоге это может быть дешевле, чем инвестировать несколько рабочих дней моего времени...
Что я пробовал:
- copy paste - создает проблемы с отсутствующими значениями (стр. 5)
- сохранить как текст из Acrobat (даже худший результат, чем копирование)
- открыть в Excel в качестве внешнего источника данных - не распознает таблицу
- https://www.pdftoexcelonline.com/ - приводит к ошибке
- http://www.pdftoexcel.org/, а также их пробная версия Able2Extract - они перепутали некоторые столбцы. Они правильно распознали столбцы в предварительном просмотре, но на выходе excel они были испорчены.
- http://www.pdftoword.com/ - просто берет мой адрес электронной почты и никогда ничего не отправляет
- с помощью python на scraperwiki http://schoolofdata.org/2013/06/18/get-started-with-scraping-extracting-simple-tables-from-pdf-documents/ кажется очень сложным, особенно для пользователей, не являющихся пользователями python и https://scraperwiki.com/ не является бесплатным
-
Я столкнулся с несколькими библиотеками python, такими как pdftables, но они не просты в использовании для разработчиков, отличных от python, таких как я (Я даже не мог управлять этими вещами). Есть ли более простой способ выполнить задачу?
-
Я пытаюсь использовать библиотеку
tm
в R как рекомендуется здесь, но Я столкнулся с некоторыми проблемы
EDIT: облачный SDK, рекомендованный Яном. Я зарегистрировался, но я абсолютно не знаю, куда идти отсюда - как загружать страницы, узнавать их и т.д.: