Подтвердить что ты не робот

Что такое быстрый способ вычисления столбца по столбцам в matlab

У меня две очень большие матрицы (60x25000), и я хотел бы вычислить корреляцию между столбцами только между двумя матрицами. Например:

corrVal(1) = corr(mat1(:,1), mat2(:,1);
corrVal(2) = corr(mat1(:,2), mat2(:,2);
...
corrVal(i) = corr(mat1(:,i), mat2(:,i);

Для меньших матриц я могу просто использовать:

   colCorr = diag( corr( mat1, mat2 ) );

но это не работает для очень больших матриц, поскольку у меня заканчивается память. Я рассмотрел нарезку матриц, чтобы вычислить корреляции, а затем объединить результаты, но кажется, что это отходы для вычисления корреляции между комбинациями столбцов, которые меня фактически не интересуют.

Есть ли быстрый способ напрямую вычислить то, что мне интересно?

Изменить. Я использовал цикл в прошлом, но его способ замедлить:

mat1 = rand(60,5000);
mat2 = rand(60,5000);
nCol = size(mat1,2);
corrVal = zeros(nCol,1);

tic;
for i = 1:nCol
    corrVal(i) = corr(mat1(:,i), mat2(:,i));
end
toc; 

Это займет ~ 1 секунду

tic;
corrVal = diag(corr(mat1,mat2));
toc;

Это займет ~ 0,2 секунды

4b9b3361

Ответ 1

Я могу улучшить скорость x100, вычислив ее вручную.

An=bsxfun(@minus,A,mean(A,1)); %%% zero-mean
Bn=bsxfun(@minus,B,mean(B,1)); %%% zero-mean
An=bsxfun(@times,An,1./sqrt(sum(An.^2,1))); %% L2-normalization
Bn=bsxfun(@times,Bn,1./sqrt(sum(Bn.^2,1))); %% L2-normalization
C=sum(An.*Bn,1); %% correlation

С помощью этого кода можно сравнить:

A=rand(60,25000);
B=rand(60,25000);

tic;
C=zeros(1,size(A,2));
for i = 1:size(A,2)
    C(i)=corr(A(:,i), B(:,i));
end
toc; 

tic
An=bsxfun(@minus,A,mean(A,1));
Bn=bsxfun(@minus,B,mean(B,1));
An=bsxfun(@times,An,1./sqrt(sum(An.^2,1)));
Bn=bsxfun(@times,Bn,1./sqrt(sum(Bn.^2,1)));
C2=sum(An.*Bn,1);
toc
mean(abs(C-C2)) %% difference between methods

Вот время вычислений:

Elapsed time is 10.822766 seconds.
Elapsed time is 0.119731 seconds.

Разница между двумя результатами очень мала:

mean(abs(C-C2))

ans =
  3.0968e-17

EDIT: описание

bsxfun выполняет операцию "по столбцу" (или по строкам в зависимости от ввода).

An=bsxfun(@minus,A,mean(A,1));

Эта строка удалит (@minus) среднее значение для каждого столбца (mean(A,1)) для каждого столбца A... Таким образом, в основном это делает столбцы A нулевыми значениями.

An=bsxfun(@times,An,1./sqrt(sum(An.^2,1)));

Эта строка умножает (@times) каждый столбец на обратную ее норме. Таким образом, они нормализуют L-2.

Когда столбцы имеют нулевое среднее и нормализованное L2, для вычисления корреляции вам нужно всего лишь сделать произведение точек каждого столбца An с каждым столбцом B. Поэтому вы умножаете их на элементы An.*Bn, а затем вы суммируете каждый столбец: sum(An.*Bn);.

Ответ 2

Я думаю, что очевидный цикл может быть достаточно хорош для вашего размера проблемы. На моем ноутбуке требуется меньше 6 секунд, чтобы сделать следующее:

A = rand(60,25000);
B = rand(60,25000);
n = size(A,1);
m = size(A,2);

corrVal = zeros(1,m);
for k=1:m
    corrVal(k) = corr(A(:,k),B(:,k));
end