Skip to content

Instantly share code, notes, and snippets.

@alexmazaltov
Created August 24, 2024 21:31
Show Gist options
  • Save alexmazaltov/9ba234ea264b209f1c09aedb4dab3afb to your computer and use it in GitHub Desktop.
Save alexmazaltov/9ba234ea264b209f1c09aedb4dab3afb to your computer and use it in GitHub Desktop.
AI bootcamp Lesson 3

Що це означає: Training the model should look familiar, except for two things. The scheduler gets called every time a batch is fed to the model. We're avoiding exploding gradients by clipping the gradients of the model using clip_grad_norm_.

Це означає, що процес навчання моделі буде схожий на звичний, але з двома важливими відмінностями:

  • Планувальник швидкості навчання (scheduler) викликається після кожного батчу даних. Це дозволяє динамічно змінювати швидкість навчання протягом процесу тренування, що може покращити конвергенцію та запобігти перенавчанню.
  • Градієнти моделі обрізаються за допомогою clip_grad_norm_. Це запобігає вибуху градієнтів (exploding gradients), коли градієнти стають занадто великими, що може призвести до нестабільності навчання. Обрізання градієнтів допомагає забезпечити більш плавне та стабільне навчання.

Коротше кажучи, ці два механізми спрямовані на оптимізацію процесу навчання та запобігання потенційним проблемам, які можуть виникнути під час тренування. image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment