Пересмотр застопорившегося проекта и поиск советов по модернизации тысяч "старых" документов и их доступности через Интернет.
Документы существуют в разных форматах, некоторые из них устарели: (.doc, PageMaker, hardcopy (OCR), PDF и т.д.). Имеются средства для переноса документов в "современный" формат, и многие из печатных копий уже были OCR'd в PDF файлы - мы предположили, что PDF будет окончательным форматом, но мы открыты для предложений (XML?),
Как только все документы находятся в общем формате, мы хотим сделать их содержимое доступным и для поиска через веб-интерфейс. Нам бы хотелось, чтобы гибкость возвращала только части (страницы?) Всего документа, где найден "хит" поиска (я полагаю, что Lucene/elasticsearch делает это возможным?!?) Может ли быть более гибким, если контент был всего XML? Если да, то как/где хранить XML? Непосредственно в базе данных или в виде дискретных файлов в файловой системе? Как насчет встроенных изображений/графиков в документах?
Любопытно, как другие могут подойти к этому. Нет "неправильного" ответа. Я просто ищу как можно больше материалов, чтобы помочь нам продолжить.
Спасибо за любой совет.