Восстановление PDF в LaTeX

Я знаю, как сделать PDF из LaTeX. Есть ли способ извлечь LaTeX-код из PDF, который я создал ранее? Как насчет того, кто-то отправит мне PDF файл, и мне нравится форматирование. Могу ли я извлечь из него LaTeX?

Ответ 1

LaTeX не имеет взаимно однозначного преобразования в PDF. Что касается вашего первого вопроса, я считаю, что такое преобразование может быть технически возможным, но я не считаю, что приложение для этого еще существует. Подобно тому, как ассемблер можно декомпилировать обратно на язык высокого уровня, возможно, есть способ сделать это. Тем не менее - PDF разрешено содержать всю информацию о видах данных - чертежи AutoCAD, графику JPEG, файлы шрифтов, формы, цифровые подписи и т.д. LaTeX понятия не имеет, что это за вещи. Поэтому в ответ на второй вопрос нет - нет способа извлечь эквивалентный LaTeX из любого PDF-документа.

Ответ 2

Существует инструмент, который читает PDF файлы, такие как OCR, и пытается воссоздать латекс-код. Это почти идеально и называется "Infty Reader" ! Поскольку Latex довольно расширяемый, я не думаю, что он правильно использует все аккуратные форматы.

Ответ 3

Это возможно только в том случае, если вы вставляете источник документа в файл PDF. См. attachfile для этого.

Ответ 4

Короткий вариант: Нет.

Длинная версия: это очень похоже на декомпиляцию: вы технически могли, но это было бы связано с множеством угадывания и эвристики.

Я не знаком с внутренними версиями PDF, но он скорее всего установит шрифты/размеры/позицию напрямую, вместо того, чтобы определять формат и применять его к заголовкам и тому подобное, например, в LaTeX.

Ответ 5

Конвертировать PDF в HTML и HTML в TEX можно с помощью pdftohtml и gnuhtml2latex.

По сути, вы делаете PDF в LaTeX конверсию в 2 этапа. Результат по-прежнему напоминает "выведение коровы из гамбургера", но в сочетании с некоторыми сценариями очистки результат может быть довольно приличным.

Сообщение в блоге "" Рудиментарное преобразование PDF в LaTeX в Linux" на GlobalBlindSpot имеет пример Bash script, который преобразует .pdf к файлу .tex и к файлу .pdf снова.

Ответ 6

Посмотрите мой ответ на соответствующий вопрос (как включить DVI в tex?)

Чтобы усилить - нет необходимости, чтобы символы находились в порядке чтения (я нашел PDF файлы, где часть sdrawkcab sdaer txet (и полагается на координаты). Это очень сложно восстановить, поскольку это может зависеть от метрик Font, Который может использовать ужасающий протокол ASCII86.

Ответ 7

Лучший способ для интеллектуального анализа данных из pdf файлов (из-за сложного формата) - открыть их с помощью Adobe Illustrator. Затем конвертируйте файл pdf в файл svg и используйте библиотеку svg parser, набирая для вас какой-то хитрый код.

Один эффективный svg parser lib batik

(Для Linux это довольно сложно для преобразования pdf в svg: calcmaster.net/personal_projects/pdf2svg/)

PS Я пытался с тех пор много найти решение вашей второй части вашего вопроса но я понял в книгах такие "Визуализация данных, Бен Фрай, OReilly", что pdf, особенно Adobe pdf, сложный для синтаксического анализа, поэтому вместо этого используйте svg parser lib.

Ответ 8

Inkscape может импортировать PDF файлы, а затем сохранять как "LaTeX с макросами PSTricks", который по существу работает, встраивая PostScript в источник LaTeX. Это больше проблем, чем его ценность, и полученный Latex-источник должен быть предварительно обработан до того, как он будет снова выводиться как PDF.

Во всяком случае, даже с некоторым гипотетическим PDF-компилятором LaTeX, в лучшем случае вы получите что-то, где положение и размер каждого символа или слова задаются отдельно - противоположное тому, что вы хотите, что я предполагаю для знаменатель должен составлять половину доли, а не некоторое число ниже горизонтальной линии.

Ответ 9

Он может работать с texmacs, который включает импорт файлов PDF.