Я кластеризую документы, используя моделирование тем. Мне нужно найти оптимальные номера тем. Итак, я решил сделать десятикратную перекрестную проверку с темами 10, 20,... 60.
Я разделил свой корпус на десять партий и отложил одну партию для набора удержания. Я провел скрытое распределение дирихле (LDA) с использованием девяти партий (всего 180 документов) с темами от 10 до 60. Теперь я должен рассчитать недоумение или вероятность регистрации для набора ограничений.
Я нашел этот код на одном из сеансов CV. Я действительно не понимаю несколько строк ниже. У меня есть dtm-матрица, использующая набор ограничений (20 документов). Но я не знаю, как рассчитать недоумение или логарифмическую вероятность этого набора ограничений.
Вопросы:
-
Может ли кто-нибудь объяснить мне, что означают здесь (2, 100, 1 = 1)? Кроме того, что означает AssociatedPress [21:30]? Какую функцию (k) делает здесь?
best.model <- lapply(seq(2, 100, by=1), function(k){ LDA(AssociatedPress[21:30,], k) })
-
Если я хочу рассчитать недоумение или логарифмическую вероятность набора удержания, называемого dtm, есть ли лучший код? Я знаю, что есть функции
perplexity()
иlogLik()
, но поскольку я новичок, я не могу понять, как реализовать его с моей матрицей удержания, называемой dtm. -
Как я могу сделать десятикратное перекрестное подтверждение с моим корпусом, содержащим 200 документов? Есть ли код, который я могу вызвать? Я нашел
caret
для этой цели, но опять же не могу понять это.