Как gensim вычисляет векторы абзаца doc2vec

Я иду в эту статью http://cs.stanford.edu/~quocle/paragraph_vector.pdf

и он утверждает, что

"Вектор вектора вектора и слова являются усредненными или конкатенированными предсказать следующее слово в контексте. В экспериментах мы используем конкатенация как метод объединения векторов."

Как работает конкатенация или усреднение?

Пример

(если в абзаце 1 содержатся слова 1 и слово2):

word1 vector =[0.1,0.2,0.3]
word2 vector =[0.4,0.5,0.6]

concat method 
does paragraph vector = [0.1+0.4,0.2+0.5,0.3+0.6] ?

Average method 
does paragraph vector = [(0.1+0.4)/2,(0.2+0.5)/2,(0.3+0.6)/2] ?

Также из этого изображения:

Утверждается, что:

Фрагмент абзаца можно рассматривать как другое слово. Он действует как память, которая запоминает то, что отсутствует в текущем контексте, или тема этого параграфа. По этой причине мы часто называем эту модель модель распределенной памяти векторов абзацев (PV-DM).

Является ли токен абзаца равным вектору абзаца, равным on?

Ответ 1

Как работает конкатенация или усреднение?

Вы получили это право для среднего. Конкатенация: [0.1,0.2,0.3,0.4,0.5,0.6].

Является ли токен абзаца равным вектору абзаца, равному на?

"Маркер абзаца" отображается на вектор, который называется "вектором абзаца". Он отличается от токена "on" и отличается от словарного вектора, на который отображается токен "on".

Ответ 2

Простым (и иногда полезным) вектором для диапазона текста является сумма или среднее векторов текстовых слов, но это не то, что представляет собой "вектор абзаца" в документе "Векторы абзацев".

Скорее, вектор абзаца - это еще один вектор, обученный аналогично векторам слов, который также приспособлен для помощи в предсказании слов. Эти векторы объединяются (или чередуются) с векторами слов для подачи модели прогнозирования. То есть, усреднение (в режиме DM) включает в себя PV вместе с слово-векторами - оно не формирует PV из слово-векторов.

На диаграмме on предсказываемое целевое слово на этой диаграмме сочетается с близкими соседними словами и полным примером PV, который, возможно, может быть неофициально рассмотрен как специальное псевдослово, весь текстовый пример, участвующий во всех скользящих "окнах" реальных слов.