Использование R для многоклассовой логистической регрессии

Короткий формат:

Как реализовать алгоритмы классификации множественной логистической регрессии с использованием градиентного спуска в R? Можно ли использовать optim(), когда имеется более двух ярлыков?

Код MatLab:

function [J, grad] = cost(theta, X, y, lambda)
    m = length(y);
    J = 0;
    grad = zeros(size(theta));
    h_theta = sigmoid(X * theta);
    J = (-1/m)*sum(y.*log(h_theta) + (1-y).*log(1-h_theta)) +...
    (lambda/(2*m))*sum(theta(2:length(theta)).^2);
    trans = X';
    grad(1) = (1/m)*(trans(1,:))*(h_theta - y);
    grad(2:size(theta, 1)) = 1/m * (trans(2:size(trans,1),:)*(h_theta - y) +...
    lambda * theta(2:size(theta,1),:));
    grad = grad(:);
end

и...

function [all_theta] = oneVsAll(X, y, num_labels, lambda)
    m = size(X, 1);
    n = size(X, 2);
    all_theta = zeros(num_labels, n + 1);
    initial_theta = zeros(n+1, 1);
    X = [ones(m, 1) X];
    options = optimset('GradObj', 'on', 'MaxIter', 50);
       for c = 1:num_labels,
     [theta] = ...
         fmincg (@(t)(cost(t, X, (y == c), lambda)), ...
                 initial_theta, options);
     all_theta(c,:) = theta';
end

Длинный формат:

Хотя, возможно, не нужно следовать этому вопросу, набор данных можно загрузить здесь и после загрузки и размещения в каталоге R, загруженного как:

library(R.matlab)
data <- readMat('data.mat')
str(data)
List of 2
 $ X: num [1:5000, 1:400] 0 0 0 0 0 0 0 0 0 0 ...
 $ y: num [1:5000, 1] 10 10 10 10 10 10 10 10 10 10 ...

So X - это матрица с 5000 примерами, каждая из которых содержит 400 функций, которые, по-видимому, составляют 400 пикселей 20 × 20 изображений рукописной цифры от 1 до 10, например, это 9:

Применение алгоритма логистической регрессии для прогнозирования рукописного числа, основанного на "видении компьютера" значений в этих 400 пикселах, представляет дополнительную проблему не быть двоичным решением. Оптимизация коэффициентов вряд ли будет эффективна с помощью специального цикла спуска градиента, как в этом примере R-bloggers.

Существует хорошо разработанный пример и в R-bloggers на основе двух объясняющих переменных (признаков) и дихотомического результата. В примере используется функция optim() R, которая кажется способ.

Несмотря на то, что я прочитал документацию, у меня возникают проблемы с настройкой этого более сложного примера, где мы должны решить 10 возможных результатов:

    library(R.matlab)
    data <- readMat('data.mat')

    X = data$X                 # These are the values for the pixels in all 5000 examples.
    y = data$y                 # These are the actual correct labels for each example.
    y = replace(y, y == 10, 0) # Replacing 10 with 0 for simplicity.

    # Defining the sigmoid function for logistic regression.
       sigmoid = function(z){
            1 / (1 + exp(-z))
       }

    X = cbind(rep(1, nrow(X)), X) # Adding an intercept or bias term (column of 1's).

    # Defining the regularized cost function parametrized by the coefficients.

       cost = function(theta){ 
           hypothesis = sigmoid(X%*%theta)
           # In "J" below we will need to have 10 columns of y:
           y = as.matrix(model.matrix(lm(y ~ as.factor(y))))
           m = nrow(y)
           lambda = 0.1
           # The regularized cost function is:
           J = (1/m) * sum(-y * log(hypothesis)  - (1 - y) * log(1 - hypothesis)) +
    (lambda/(2 * m)) * sum(theta[2:nrow(theta), 1]^2)
           J
        }

    no.pixels_plus1 = ncol(X)     # These are the columns of X plus the intercept.
    no.digits = length(unique(y)) # These are the number of labels (10).
    # coef matrix rows = no. of labels; cols = no. pixels plus intercept:
    theta_matrix = t(matrix(rep(0, no.digits*no.pixels_plus1), nrow = no.digits))
    cost(theta_matrix) # The initial cost:
    # [1] 0.6931472
    theta_optim = optim(par = theta_matrix, fn = cost) # This is the PROBLEM step!

Очевидно, это кажется неполным и дает мне сообщение об ошибке:

 Error in X %*% theta : non-conformable arguments

Обратите внимание, что X%*%theta_matrix выполняется без каких-либо проблем. Поэтому проблема заключается в том, что у меня есть 10 классификаторов (от 0 до 9) и что я вынужден создать матрицу с векторами столбцов 10 y, чтобы сделать операции выполнимыми с помощью функции cost. Возможно, что решение проходит через фиктивный код y с некоторой строкой типа: y = as.matrix(model.matrix(lm(y ~ as.factor(y)))), как в моем нерабочем коде выше, но, опять же, я не знаю, что это инкапсулирует "один-против" -все "идея - ОК, вероятно, нет, и, вероятно, это проблема.

В противном случае, похоже, работает над R-bloggers post с бинарным классификатором и крайне параллелен идентичному коду.

Итак, какой правильный синтаксис для этой проблемы?

Обратите внимание, что Я попытался разобрать одну цифру против всех остальных, но я не думаю, что это имеет смысл с точки зрения сложность.

Ответ 1