Я хочу создать простую функцию индексирования поисковой системы без какого-либо API, например Lucene. В инвертированном индексе мне просто нужно записать основную информацию каждого слова, например. docID, положение и частота.
Теперь у меня есть несколько вопросов:
-
Какая структура данных часто используется для построения инвертированного индекса? Многомерный список?
-
После создания индекса, как записать его в файлы? Какой формат в файле? Как таблица? Как рисовать индексную таблицу на бумаге?