Мне нужен механизм для извлечения библиографических метаданных из PDF-документов, чтобы сохранить людей, входящих в него вручную, или вырезать и вставлять их.
По крайней мере, название и реферат. Список авторов и их принадлежность были бы хорошими. Извлечение ссылок было бы удивительным.
В идеале это было бы решение с открытым исходным кодом.
Проблема заключается в том, что не все PDF файлы кодируют текст, а многие из них не сохраняют логический порядок текста, поэтому простое выполнение pdf2text дает вам строку 1 столбца 1, строка 1 столбца 2, строка 2 столбца 1 и т.д.
Я знаю много библиотек. Он идентифицирует абстрактных авторов заглавия и т.д. В документе, который мне нужно решить. Это никогда не будет возможным каждый раз, но 80% сэкономит много человеческих усилий.