Подтвердить что ты не робот

Вложения символов-слов от lm_1b в Keras

Я хотел бы использовать некоторые предварительно подготовленные словарные вложения в модели Keras NN, которые были опубликованы Google в очень известной статье. Они предоставили код для обучения новой модели, а также вложения здесь.

Однако из документации не ясно, как извлечь вектор внедрения из заданной строки символов (слова) из простого вызова функции python. Большая часть документации, по-видимому, сосредоточена на демпинге векторов на файл для всего предложения, предположительно для сентиментального анализа.

До сих пор я видел, что вы можете использовать предварительные вложения со следующим синтаксисом:

embedding_layer = Embedding(number_of_words??,
                            out_dim=128??,
                            weights=[pre_trained_matrix_here],
                            input_length=60??,
                            trainable=False)

Однако преобразование разных файлов и их структур в pre_trained_matrix_here мне не совсем понятно.

У них есть несколько выходов softmax, поэтому я не уверен, какой из них будет принадлежать, и, кроме того, как выровнять слова в моем вводе в словарь слов, для которых они есть.

Есть ли простой способ использовать эти слова / char вложения в keras и/или построить часть вложения символов/слова модели в keras, чтобы добавить другие уровни для других задач NLP?

4b9b3361