🤖 AI Dev Tools

Глубже — не значит лучше: внутренний сдвиг ковариат и остаточные соединения

Все думали, что больше слоев — больше мощности. Ошибались. Сеть из 56 слоев проваливалась куда сильнее 20-слойной, даже на обучающих данных. Разбираемся в решениях, которые изменили всё.

Dev Digest Apr 11, 2026 4 min read

Read in: English 日本語 한국어 Русский Türkçe

Иллюстрация взрывающихся градиентов в глубоких сетях против стабилизированных с помощью батч-норм и остаточных соединений

⚡ Key Takeaways

Более глубокие сети проваливаются без исправлений: внутренний сдвиг ковариат взрывает/коллапсирует сигналы, а исчезающие градиенты «замораживают» ранние слои. 𝕏
Батч-норм нормализует входы до нулевого среднего и единичной дисперсии, позволяя использовать более высокие скорости обучения и увеличивать глубину. 𝕏
Остаточные соединения добавляют «обходные пути», обеспечивая поток градиентов и позволяя обучать сети глубиной более 100 слоев. 𝕏