Подтвердить что ты не робот

Преобразуйте в PDF/A и проверьте соответствие Linux

Я работаю над онлайн-порталом, где исследователи могут загружать свои исследовательские работы. Одним из требований является то, что все PDF файлы хранятся в формате PDF/A. Поскольку я не могу полагаться на пользователей для создания документов PDF/A, мне нужен инструмент для проверки и преобразования стандартных PDF файлов в формат PDF/A.

Какой лучший инструмент вы знаете?

  • Цена
  • Качество
  • Скорость
  • Доступные API

Предпочитаются инструменты с открытым исходным кодом, но поиск не выявил. iText может создавать PDF/a, но конвертировать нелегко, так как вам нужно прочитать каждую страницу и скопировать ее в новый документ, потеряв все закладки и аннотации в этом процессе. (По крайней мере, насколько я знаю, если вы знаете о простом решении, дайте мне знать).

API должны быть доступны либо для PHP, либо для Java, либо для командной строки. Пожалуйста, не указывайте ни GUI-only, ни Online-only решения.

4b9b3361

Ответ 1

Я не уверен, что все ваши цели могут быть удовлетворены одновременно. История вокруг PDF/A намного сложнее, чем преобразования формата, такие как tiff to png.

  • Базовый формат PDF 1.4: что делать с документами с более высокой версией, которые используют функции из этих более высоких версий? Информация может быть потеряна.
  • В обоих файлах PDF/A-1a и 1b метаданные в формате XMP/RDF являются обязательными. Если исходный документ без метаданных, вам нужно его получить откуда-нибудь и добавить его. По крайней мере, iText может это сделать.
  • Есть много мелких деталей, чтобы получить право, от внедрения шрифтов, чтобы убедиться, что пробелы присутствуют, а не только команды горизонтального перемещения.

Подводя итог: я считаю, что вам лучше поставить какую-то или всю ответственность за соответствие производителям PDF файлов. Конечно, это не значит, что вы не можете им помочь: если вы выясните, какие инструменты большинство используют для создания своих документов, вы можете указать документацию о PDF/A и конкретных инструментах. (в качестве некоторого экстремального примера такой документации смотрите this)

Удачи вам в ваших усилиях.

Ответ 2

Я работал во Французской национальной библиотеке, чтобы создать архивную систему, которая делала подобные вещи. Как большинство из десяти лучших библиотек в мире, мы использовали JHOVE для распознавания форматов файлов.

JHOVE может указать, являются ли файлы PDF/A или нет, и может даже проверить их. Он также знает 7 других видов PDF, см. детали.

JHOVE является открытым исходным кодом, он поддерживается JSTOR и Библиотекой Гарвардского университета. Это довольно просто использовать.

Ответ 5

Я не уверен в документах PDF/, но вы посмотрели на jodconverter? Он может конвертировать много разных форматов для вас, и он является открытым исходным кодом. Мы используем его довольно широко в нашем проекте.

http://www.artofsolving.com/opensource/jodconverter