Natural Gradient Descent. Научный семинар, весна 2025
Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn Что такое Natural Gradient Descent? Многие модели машинного обучения можно интерпретировать как вероятностные модели. В таких моделях цель заключается не просто в минимизации функции потерь, а в нахождении оптимального распределения параметров, которое лучше всего описывает данные. В этом плане NGD схож с методами второго порядка, которые тоже используют кривизну функции потерь, что позволяет делать более точные шаги в сторону минимума. Однако, в то время как обращение гессиана является сложной процедурой, использование NGD не требует стольких арифметических затрат, что и является одним из достоинств данного метода. Что будет на семинаре: 1. Поговорим об использовании NGD как аппроксимации метода Ньютона, получим оценки сходимости, которые покажут конкурентоспособность данного алгоритма, а также поговорим о нескольких вариациях NGD для глубоких нейронных сетей. 2. Изучим новое предположение не неточность аппроксимации градиента и его влияние на сходимость метода. 3. Сравним теоретические оценки с экспериментами трансформере RoBERTa на датасете Cola.
Докладчик: Александр Шестаков — студент 5 курса магистратуры МФТИ, сотрудник лаборатории BRAIn Что такое Natural Gradient Descent? Многие модели машинного обучения можно интерпретировать как вероятностные модели. В таких моделях цель заключается не просто в минимизации функции потерь, а в нахождении оптимального распределения параметров, которое лучше всего описывает данные. В этом плане NGD схож с методами второго порядка, которые тоже используют кривизну функции потерь, что позволяет делать более точные шаги в сторону минимума. Однако, в то время как обращение гессиана является сложной процедурой, использование NGD не требует стольких арифметических затрат, что и является одним из достоинств данного метода. Что будет на семинаре: 1. Поговорим об использовании NGD как аппроксимации метода Ньютона, получим оценки сходимости, которые покажут конкурентоспособность данного алгоритма, а также поговорим о нескольких вариациях NGD для глубоких нейронных сетей. 2. Изучим новое предположение не неточность аппроксимации градиента и его влияние на сходимость метода. 3. Сравним теоретические оценки с экспериментами трансформере RoBERTa на датасете Cola.




