Подтвердить что ты не робот

Вырезать векторное изображение из файла pdf

Есть ли инструмент командной строки в linux, который будет извлекать данные из файла pdf и сохранять их в векторном формате? Я знаю о pdfimages, но это создаст растровое изображение, и это не то, что мне нужно.

4b9b3361

Ответ 1

не для изображений только, как вам кажется, но

  • pdftocairo

http://poppler.freedesktop.org/

http://www.manpagez.com/man/1/pdftocairo/ (manpage)

способен отображать страницу PDF в других векторных форматах, таких как PS/EPS/SVG

при условии, что у вас есть страница pdf с векторизованными изображениями, вы можете отобразить эту страницу на svg, а затем скопировать только изображение, которое вас интересует

Примечание: pdftocairo не может преобразовать многостраничный файл PDF в многостраничный файл svg

если вам нужно конвертировать в svg несколько PDF-страниц, вам нужно сначала выбрать этот диапазон страниц, а затем разложить pdf-страницы в отдельные pdf-страницы.

example (если нам нужно преобразовать страницы 1-10 PDF файла в svg)

  • 1 °

pdftk file.pdf cat 1-10 output 1-10.pdf

  • 2 °

pdftk 1-10.pdf burst

  • 3 °

for f in *.pdf; do pdftocairo -svg $f; done

  • 4 °

Наконец, с помощью sodipodi или inkscape вы можете извлекать изображения, которые вас интересуют, из svg rendered pdf page

Ответ 2

Что вы считаете "фигурой"? Это концепция, которая не существует в PDF. Причина в том, что существует так много инструментов, которые могут извлекать изображения из файла PDF, потому что изображения являются очень четко идентифицированными объектами.

Однако ваши "цифры" гораздо менее четко определены. Файлы PDF могут содержать много векторного содержимого, которое вы бы не назовете цифрой. Например, текст можно погладить, что сделало бы его векторным искусством и, как таковое, его можно было бы спутать с вашими цифрами. Другие декоративные элементы могут использоваться на фоне страниц. Текст может быть подчеркнутым, что будет векторным элементом...

В другом направлении ваша "фигура" может содержать заголовок, являющийся текстом, еще более усложняющим.

Поскольку PDF не имеет понятия фигуры, вам нужно выяснить, как изолировать его на странице PDF (возможно, потому, что приложение-разработчик всегда добавляет метаданные к ним или потому, что они используют специальный цвет или... Если вы можете их изолировать, необходимо убрать все, что не имеет значения на странице, и экспортировать то, что вам нужно, в виде EPS или SVG, используя некоторые из методов, описанных в другом ответе.

Ответ 3

В этой статье описываются инструменты gpdfx, inkscape и pdf2svg, которые не полностью основаны на командной строке, но по-прежнему полезны.