Использование Word2Vec для моделирования тем

Я читал, что наиболее распространенным методом моделирования тем (извлечение возможных тем из текста) является выделение скрытого распределения Дирихле (LDA).

Тем не менее, меня интересует, стоит ли тестировать моделирование темы с помощью Word2Vec, поскольку она кластеризует слова в векторном пространстве. Не могли ли кластеры рассматриваться как темы?

Как вы думаете, имеет смысл следовать этому подходу ради каких-то исследований? В конце меня интересует извлечение ключевых слов из текста в соответствии с темами.

Ответ 1

Вы можете посмотреть следующие документы:

Dat Quoc Nguyen, Ричард Биллингсли, Лан Ду и Марк Джонсон. 2015. Улучшение моделей тем с латентными представлениями слов. Сделки Ассоциации вычислительной лингвистики, т. 3, pp. 299-313. [CODE]

Ян Лю, Чжиюань Лю, Тат-Сенг Чуа, Маосун Сан. 2015. Тематические вставки Word. В материалах 29-й конференции AAAI по искусственному интеллекту, 2418-2424. [CODE]

Первая статья объединяет вложения слов в модель LDA и модель DMM с одним типом документа. В нем сообщается о значительном улучшении согласованности тем, кластеризации документов и задач классификации документов, особенно в отношении небольших корпусов или коротких текстов (например, твитов).

Вторая статья также интересна. Он использует LDA для назначения темы для каждого слова, а затем использует Word2Vec для изучения вложений слов на основе обоих слов и их тем.

Ответ 2

Два человека попытались решить эту проблему.

Chris Moody at StichFix вышел с LDA2Vec, и некоторые кандидаты в КМУ написали статью под названием "Гауссовская LDA для моделей тем с вставками Word" с код здесь... хотя я не мог получить код Java для вывода сенсационных результатов. Его интересная идея использования word2vec с гауссовскими (фактически T-дистрибутивами, когда вы разрабатываете математические) распределения по темам. Гауссовский LDA должен уметь обрабатывать словарные слова из тренинга.

LDA2Vec одновременно пытается подготовить как модель LDA, так и слова-векторы, а также позволяет помещать LDA priors поверх не-слов, чтобы получить действительно интересные результаты.

Ответ 3

В Word2Vec, Рассмотрим 3 предложений
"собака увидела кошку",
"собака преследовала кошку",
"кот взобрался на дерево"
Здесь мы вводим слово "cat", затем получаем выходное слово как "поднялось"

его основано на вероятности всех слов, заданных контекстным словом (cat). Его непрерывный мешок слов модели. Мы получим слова, похожие на входное слово, основанное на контексте. Word2Vec отлично работает в огромном наборе данных.

LDA используется для абстрактных тем из корпуса. Его не основано на контексте. Поскольку он использует распределение Дирихле, чтобы нарисовать слова по темам и нарисовать темы по документам. Проблема, с которой мы сталкиваемся, - случайность. Каждый раз мы получаем разные выходы.

Выбор метода зависит от наших требований.