Существуют ли библиотеки с открытым исходным кодом, которые поддерживают идентификацию и извлечение таблицы?
Под этим я подразумеваю:
- Определить структуру таблицы.
- Классифицировать таблицу из ее содержимого
- Извлечь данные из таблицы в полезный формат вывода, например. JSON/CSV и т.д.
Я просмотрел похожие вопросы по этой теме и нашел следующее:
- PDFMiner, который затрагивает проблему 3, но кажется, что пользователю необходимо указать в PDFMiner, где структура таблицы существует для каждой таблицы (исправьте меня, если я ' неверно)
- pdf-table-extract, который пытается решить проблему 1, но в соответствии с To-Do, не может в настоящее время идентифицируют таблицы, разделенные пробелами. Это проблема, так как все таблицы в моих PDF файлах разделены пробелами!
В настоящее время я думаю, что мне пришлось бы потратить много времени на разработку решения машинного обучения для определения структур таблиц из PDF файлов. Поэтому любые альтернативные подходы были бы более чем приветствуются!