Глубже — не значит лучше: внутренний сдвиг ковариат и остаточные соединения
Все думали, что больше слоев — больше мощности. Ошибались. Сеть из 56 слоев проваливалась куда сильнее 20-слойной, даже на обучающих данных. Разбираемся в решениях, которые изменили всё.
⚡ Key Takeaways
- Более глубокие сети проваливаются без исправлений: внутренний сдвиг ковариат взрывает/коллапсирует сигналы, а исчезающие градиенты «замораживают» ранние слои. 𝕏
- Батч-норм нормализует входы до нулевого среднего и единичной дисперсии, позволяя использовать более высокие скорости обучения и увеличивать глубину. 𝕏
- Остаточные соединения добавляют «обходные пути», обеспечивая поток градиентов и позволяя обучать сети глубиной более 100 слоев. 𝕏
Worth sharing?
Get the best Developer Tools stories of the week in your inbox — no noise, no spam.
Originally reported by dev.to