Моделирование LDA-темы - Обучение и тестирование

Я прочитал LDA, и я понимаю математику о том, как создаются темы, когда вы вводите коллекцию документов.

Ссылки говорят, что LDA - это алгоритм, который, учитывая набор документов и ничего более (без надзора), может раскрывать "темы", выраженные документами в этой коллекции. Таким образом, используя алгоритм LDA и Gibbs Sampler (или Variational Bayes), я могу ввести набор документов, а в качестве вывода я могу получить темы. Каждая тема представляет собой набор терминов с назначенными вероятностями.

Я не понимаю, если это верно, то почему многие учебники по моделированию томов говорят о разделении набора данных на тренировочный и тестовый набор?

Может ли кто-нибудь объяснить мне шаги (основную концепцию) о том, как LDA можно использовать для обучения модели, которая затем может быть использована для анализа другого набора тестовых данных?

Ответ 1

Разделение данных на обучающие и тестовые наборы - это общий шаг в оценке производительности алгоритма обучения. Это более ясно для контролируемого обучения, в котором вы обучаете модель на тренировочном наборе, а затем смотрите, насколько хорошо ее классификации в наборе тестов соответствуют истинным меткам класса. Для неконтролируемого обучения такая оценка немного сложнее. В случае тематического моделирования общий показатель производительности - perplexity. Вы обучаете модель (например, LDA) на тренировочном наборе, а затем видите, как "запутанная" модель находится на тестовом наборе. Более конкретно, вы измеряете, насколько хорошо количество слов тестовых документов представлено распределением слов, представленным темами.

Прелесть хороша для относительных сравнений между моделями или параметрами, но это числовое значение на самом деле мало значит. Я предпочитаю оценивать модели тем, используя следующий, несколько ручной процесс оценки:

Осмотрите темы. Посмотрите на наивысшие слова правдоподобия в каждой теме. Они звучат так, будто они образуют сплоченную "тему" или просто какую-то случайную группу слов?
Осмотреть назначение тем: Проведите несколько случайных документов от обучения и посмотрите, какие темы ему назначают. Вручную осмотрите документы и верхние слова в назначенных тем. Похоже, что темы действительно описывают, о чем фактически говорят документы?

Я понимаю, что этот процесс не такой приятный и количественный, как хотелось бы, но, честно говоря, приложения тематических моделей редко бывают количественными. Я предлагаю оценить вашу модель темы в соответствии с проблемой, к которой вы ее применяете.

Удачи!