У меня есть около тысячи статей в формате pdf в папке. Мне нужно написать текст по всем статьям из всей папки. Теперь я делаю следующее:
dest <- "~/A1.pdf"
# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)
# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)
Таким образом, я конвертирую один файл pdf в один .txt файл, а затем копирую реферат в другой .txt файл и компилирую его вручную. Эта работа хлопотная.
Мне нужен код, который может читать все отдельные статьи из папки и преобразовывать их в файл .txt, который содержит только тезисы из каждой статьи. Это может быть сделано путем ограничения содержания между АБСТРАКТОМ и ВВЕДЕНИЕ в каждой статье; но я не могу этого сделать. Любая помощь приветствуется.