Я прочитал LDA, и я понимаю математику о том, как создаются темы, когда вы вводите коллекцию документов.
Ссылки говорят, что LDA - это алгоритм, который, учитывая набор документов и ничего более (без надзора), может раскрывать "темы", выраженные документами в этой коллекции. Таким образом, используя алгоритм LDA и Gibbs Sampler (или Variational Bayes), я могу ввести набор документов, а в качестве вывода я могу получить темы. Каждая тема представляет собой набор терминов с назначенными вероятностями.
Я не понимаю, если это верно, то почему многие учебники по моделированию томов говорят о разделении набора данных на тренировочный и тестовый набор?
Может ли кто-нибудь объяснить мне шаги (основную концепцию) о том, как LDA можно использовать для обучения модели, которая затем может быть использована для анализа другого набора тестовых данных?