В h_theta(x^i) мы обозначаем, какие выходные модели для x^i, поэтому h_theta(x^i) - y^i является его ошибкой (предполагая, что y^i является правильным выходом).
Теперь мы вычисляем квадрат этой ошибки [ h_theta(x^i) - y^i ]^2 (который удаляет знак, так как эта ошибка может быть как положительной, так и отрицательной) и суммировать ее по всем образцам, и связать ее как-то мы ее нормализуем - просто разделив m, поэтому мы имеем среднее (потому что мы делим на количество выборок) квадрат (потому что мы квадрат) ошибка (потому что мы вычисляем ошибка):
1/m * sum_(i=1)^m [ h_theta(x^i) - y^i ]^2
Этот 2, который появляется спереди, используется только для упрощения производной, потому что, когда вы попытаетесь свести его к минимуму, вы будете использовать метод наискорейшего спуска, основанный на производной этой функции. Производная a^2 равна 2a, а наша функция является квадратом чего-то, поэтому этот 2 будет отменен. Это единственная причина его существования.