Нормализация нормальности - преимущество нормализации l2

Особенности обычно нормализуются до классификации.

Нормализация L1 и L2 обычно используется в литературе.

Можно ли прокомментировать преимущества нормы L2 (или нормы L1) по сравнению с нормой L1 (или нормой L2)?

Ответ 1

Преимущества L2 над нормой L1

Как уже было сказано aleju в комментариях, выводы нормы L2 легко вычисляются. Поэтому он также прост в использовании методов обучения на основе градиента.
L2-регуляризация оптимизирует среднюю стоимость (тогда как L1 уменьшает медиану explain), который часто используется как измерение производительности. Это особенно хорошо, если вы знаете, что у вас нет никаких выбросов, и вы хотите, чтобы общая ошибка была небольшой.
Решение, скорее всего, будет уникальным. Это связано с предыдущей точкой: хотя среднее значение является единственным значением, медиана может располагаться в интервале между двумя точками и поэтому не является уникальной.
В то время как L1-регуляризация может дать вам разреженный вектор коэффициентов, нерасширение L2 может улучшить вашу производительность прогнозирования (поскольку вы используете больше возможностей вместо простого игнорирования их).
L2 инвариантно относительно вращения. Если у вас есть набор данных, состоящий из точек в пространстве, и вы применяете поворот, вы все равно получаете одинаковые результаты (т.е. Расстояния между точками остаются неизменными).

Преимущества L1 над нормой L2

Норма L1 предпочитает разреженные коэффициенты. (пояснение в Quora) Это означает, что норма L1 выполняет выбор функции, и вы можете удалить все функции, где коэффициент равен 0. Уменьшение размеров полезно практически во всех случаях.
Норма L1 оптимизирует медиану. Поэтому норма L1 не чувствительна к выбросам.

Другие источники:

Тот же вопрос о Quora

Еще один

Ответ 1

Ответ 2