Для небольшого проекта мне приходится разбирать pdf файлы и принимать определенную часть из них (простая цепочка символов). Я хотел бы использовать python для этого, и я нашел несколько библиотек, которые способны делать то, что я хочу, в некотором роде.
Но теперь, после нескольких исследований, мне интересно, какова реальная структура pdf файла, кто-нибудь знает, есть ли спецификация или какие-то объяснения в любом месте в Интернете? Я нашел ссылку на adobe, но кажется, что это мертвая ссылка: (