Сочетание разработчиков, похоже, дает хорошие результаты для поиска связанных терминов в текстовых корпусах. В этой теме есть несколько работ, включая известный метод LSA. Самый простой способ объединения ассоциаций - построить матрицу совпадений docs X terms
и найти термины, которые встречаются в тех же самых документах чаще всего. В моих предыдущих проектах я реализовал его непосредственно в Lucene по итерации по TermDocs (я получил его, вызвав IndexReader.termDocs(Term)). Но я не вижу ничего подобного в Солре.
Итак, мои потребности:
- Получить большинство связанных терминов в определенном поле.
- Чтобы получить термин , ближайший к указанному, в определенном поле.
Я буду оценивать ответы следующим образом:
- В идеале я хотел бы найти компонент Solr, который напрямую покрывает определенные потребности, то есть что-то, чтобы напрямую получить связанные термины.
- Если это невозможно, я ищу способ получить информацию о матрице совпадений для указанного поля.
- Если это тоже не вариант, я хотел бы узнать самый простой способ: 1) получить все условия и 2) получить идентификаторы (числа) документов, в которых эти термины входят.