Поскольку я часто работаю без быстрого или даже любого интернет-соединения, у меня есть веб-сервер, который обслуживает обычно используемую документацию, например:
- Различные языки программирования (php, Python, Java,...)
- Различные библиотеки (например, pthreads)
- Различные открытые книги
- РЛК
- Проекты IETF
- Википедия (только для текста, несжатый английский дамп файл весит 20 ГБ!)
- Галерея клипартов
Я использую их, даже когда я в сети, - меньше необходимости поиска, и я могу grep файлы, если это необходимо. Однако эта коллекция занимает много места, около 30 ГБ, поэтому я бы хотел сжать ее.
Кроме того, я ищу хороший способ найти весь этот материал. В прошлый раз, когда я пытался, настольные поисковые системы не могли справиться с тысячами или очень, очень большими файлами - и я предполагаю, что любой значащий индекс будет больше, чем часть исходного текста. Поэтому я хотел бы индексировать только определенные области (например, только название Википедии, или только заголовок и первый абзац, или только краткое описание функции).
Есть ли такое решение, которое позволяет искать в нем, распаковать нужную часть сжатого файла и форматировать? it?
¹, например, сохранение ссылок в документации HTML, преобразование PDF в HTML