Мне нужно проанализировать PDF файл, содержащий табличные данные. Я использую PDFBox, чтобы извлечь текст файла для синтаксического анализа результата (String) позже. Проблема в том, что извлечение текста не работает, как я ожидал для табличных данных. Например, у меня есть файл, который содержит такую таблицу (7 столбцов: первые два всегда имеют данные, только один столбец "Сложность" имеет данные, только один столбец "Финансирование" имеет данные):
+----------------------------------------------------------------+
| AIH | Value | Complexity | Financing |
| | | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34 | | | 12.34 | |
+----------------------------------------------------------------+
| abc | 1.56 | | 1.56 | | | 1.56|
+----------------------------------------------------------------+
Затем я использую PDFBox:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
Эти две строки данных будут извлечены следующим образом:
xyz 12.43 12.4312.43
abc 1.56 1.561.56
Между двумя последними цифрами нет пробелов, но это не самая большая проблема. Проблема в том, что я не знаю, что означают последние два числа: средний, высокий, неприменимый? MAC/Другое, FAE? У меня нет связи между числами и их столбцами.
Мне не требуется использовать библиотеку PDFBox, поэтому решение, использующее другую библиотеку, прекрасное. Я хочу, чтобы иметь возможность анализировать файл и знать, что означает каждый проанализированный номер.