Как применять внешний продукт для тензоров без лишнего увеличения размеров?

У меня есть два вектора v и w, и я хочу сделать из них матрицу m так, что:

m[i, j] = v[i] * w[j]

Другими словами, я хочу рассчитать внешний продукт. Я могу сделать это либо с помощью theano.tensor.outer, либо путем добавления новых индексов к v и v и использования продукта dot.

m = T.dot(v[:,numpy.newaxis], w[numpy.newaxis,:])

Теперь я пытаюсь решить более общую проблему. Вместо двух векторов v и w у меня есть две матрицы (я их снова называю v и w), и я хотел бы вычислить внешнее произведение каждой строки из матрицы v с соответствующей строкой матрица w (i-я строка в первой матрице должна быть умножена на i-я строка второй матрицы). Итак, я хотел бы сделать что-то вроде этого:

m1 = T.tensordot(v[:,:, numpy.newaxis], w[:,:,numpy.newaxis], axes = [[2],[2]])
m[i, j, k] = m1[i, k, j, k]

Другими словами, m[:,:,k] - это матрица, соответствующая внешнему произведению строки k_th из строки матрицы v и k_th матрицы w.

Я вижу две проблемы с вышеупомянутым "решением". Во-первых, это не решение, так как вторая строка кода не является правильным аналоговым кодом. Итак, мой первый вопрос заключается в том, как сделать эту "расширенную резку", заставив некоторые индексы быть равными. Например m[i, k] = a[i, k, i, i, k]. Во-вторых, мне не нравится тот факт, что я сначала создаю 4D tesnor (m1) из двух 2D-тензоров, а затем свожу его обратно к трехмерному тензору. Это может быть очень много памяти. Я думаю, можно избежать этого.

Ответ 1

Нам нужно ввести широковещательные измерения в две входные матрицы с dimshuffle, а затем пусть broadcasting позаботится об элементарном умножении что приводит к внешнему продукту между соответствующими их рядами.

Таким образом, при V и W в качестве анано-матриц просто do -

V.dimshuffle(0, 1, 'x')*W.dimshuffle(0, 'x', 1)

В NumPy мы можем np.newaxis расширить размеры и np.transpose() для перестановки размеров. С theno, там dimshuffle, чтобы выполнить обе эти задачи с сочетанием идентификаторов размеров листинга и x для введения новых осей, способных передавать широковещательные сообщения.

Пример прогона

1) Входы:

# Numpy arrays
In [121]: v = np.random.randint(11,99,(3,4))
     ...: w = np.random.randint(11,99,(3,5))
     ...: 

# Perform outer product on corresponding rows in inputs
In [122]: for i in range(v.shape[0]):
     ...:     print(np.outer(v[i],w[i]))
     ...:     
[[2726 1972 1740 2117 1972]
 [8178 5916 5220 6351 5916]
 [7520 5440 4800 5840 5440]
 [8648 6256 5520 6716 6256]]
[[8554 3458 8918 4186 4277]
 [1786  722 1862  874  893]
 [8084 3268 8428 3956 4042]
 [2444  988 2548 1196 1222]]
[[2945 2232 1209  372  682]
 [2565 1944 1053  324  594]
 [7125 5400 2925  900 1650]
 [6840 5184 2808  864 1584]]

2) Theano part:

# Get to theano : Get the theano matrix versions 
In [123]: V = T.matrix('v')
     ...: W = T.matrix('w')
     ...: 

# Use proposed code
In [124]: OUT = V.dimshuffle(0, 1, 'x')*W.dimshuffle(0, 'x', 1)

# Create a function out of it and then use on input NumPy arrays
In [125]: f = function([V,W], OUT)

3) Подтвердить результаты:

In [126]: f(v,w)    # Verify results against the earlier loopy results
Out[126]: 
array([[[ 2726.,  1972.,  1740.,  2117.,  1972.],
        [ 8178.,  5916.,  5220.,  6351.,  5916.],
        [ 7520.,  5440.,  4800.,  5840.,  5440.],
        [ 8648.,  6256.,  5520.,  6716.,  6256.]],

       [[ 8554.,  3458.,  8918.,  4186.,  4277.],
        [ 1786.,   722.,  1862.,   874.,   893.],
        [ 8084.,  3268.,  8428.,  3956.,  4042.],
        [ 2444.,   988.,  2548.,  1196.,  1222.]],

       [[ 2945.,  2232.,  1209.,   372.,   682.],
        [ 2565.,  1944.,  1053.,   324.,   594.],
        [ 7125.,  5400.,  2925.,   900.,  1650.],
        [ 6840.,  5184.,  2808.,   864.,  1584.]]])

Ответ 2

вы ищете что-то вроде этого?

>>> a = b = np.arange(8).reshape([2,4])
>>> a[:,None,:]*b[:,:,None]
array([[[ 0,  0,  0,  0],
        [ 0,  1,  2,  3],
        [ 0,  2,  4,  6],
        [ 0,  3,  6,  9]],

       [[16, 20, 24, 28],
        [20, 25, 30, 35],
        [24, 30, 36, 42],
        [28, 35, 42, 49]]])

Ответ 3

Не могу поверить, что никто не пытался использовать np.einsum.

w
array([[1, 8, 9, 2],
       [1, 2, 9, 0],
       [5, 8, 7, 3],
       [2, 9, 8, 2]])

v 
array([[1, 4, 5, 9],
       [9, 1, 3, 7],
       [9, 6, 1, 5],
       [4, 9, 7, 0]])

for i in range(w.shape[0]):
     print(np.outer(w[i], v[i]))

[[ 1  4  5  9]
 [ 8 32 40 72]
 [ 9 36 45 81]
 [ 2  8 10 18]]
[[ 9  1  3  7]
 [18  2  6 14]
 [81  9 27 63]
 [ 0  0  0  0]]
[[45 30  5 25]
 [72 48  8 40]
 [63 42  7 35]
 [27 18  3 15]]
[[ 8 18 14  0]
 [36 81 63  0]
 [32 72 56  0]
 [ 8 18 14  0]]

np.einsum('ij,ik->ijk', w, v)

array([[[ 1,  4,  5,  9],
        [ 8, 32, 40, 72],
        [ 9, 36, 45, 81],
        [ 2,  8, 10, 18]],

       [[ 9,  1,  3,  7],
        [18,  2,  6, 14],
        [81,  9, 27, 63],
        [ 0,  0,  0,  0]],

       [[45, 30,  5, 25],
        [72, 48,  8, 40],
        [63, 42,  7, 35],
        [27, 18,  3, 15]],

       [[ 8, 18, 14,  0],
        [36, 81, 63,  0],
        [32, 72, 56,  0],
        [ 8, 18, 14,  0]]])

Похоже, что эквивалентная функция Anano theano.tensor.batched_dot (которая должна быть еще быстрее, чем einsum), но у меня нет опыта с Theano.