Машинне навчання та добування даних |
---|
![]() |
Задачі
|
Кероване навчання (класифікація • регресія)
|
Кластерування
|
Зниження розмірності
|
Структурове передбачування
|
Виявлення аномалій
|
Нейронні мережі
|
Навчання з підкріпленням
|
Теорія
|
Місця машинного навчання
|
В машинному навчанні пробле́ма зника́ння градіє́нту (англ. vanishing gradient problem) — це ускладнення, яке виникає в тренуванні штучних нейронних мереж методами навчання на основі градієнту та зворотного поширення. В таких методах кожен з вагових коефіцієнтів нейронної мережі отримує уточнення пропорційно до градієнту функції похибки по відношенню до поточної ваги на кожній ітерації тренування. Традиційні активаційні функції, такі як гіперболічний тангенс, мають градієнти в проміжках (-1, 1) або [0, 1), а зворотне поширення обчислює градієнти за ланцюговим правилом. Це має ефект перемножування n цих малих чисел для обчислення градієнтів «передніх» шарів в n-шаровій мережі, а це означає, що градієнт (сигнал похибки) експоненційно спадає з n, і передні шари тренуються дуже повільно.
З появою в 1970-х роках алгоритму зворотного поширення багато дослідників намагалися тренувати керовані глибинні нейронні мережі з нуля, спочатку з невеликим успіхом. Дипломна праця Зеппа Хохрайтера [en] 1991 року формально ідентифікувала причину цієї невдачі в «проблемі зникання градієнту», яка впливає не лише на багатошарові мережі прямого поширення, а й на рекурентні нейронні мережі. Останні тренуються розгортанням їх у дуже глибокі мережі прямого поширення, в яких для кожного моменту часу вхідної послідовності, оброблюваної мережею, створюється новий шар.
Коли застосовуються такі активаційні функції, похідні яких можуть набувати великих значень, виникає ризик зіткнутися із пов'язаною проблемою вибуху градієнту.
Для подолання цієї проблеми було запропоновано кілька методів. Одним з них є багаторівнева ієрархія мереж Юргена Шмідгубера [en] (1992 року), попередньо тренована по одному рівню за раз шляхом некерованого навчання, і тонко налаштовувана зворотним поширенням. Тут кожен рівень навчається стисненого представлення спостережень, яке подається до наступного рівня.
Іншим методом є мережа довгої короткочасної пам'яті (ДКЧП) 1997 року від Хохрайтера [en] та Шмідгубера [en] . 2009 року глибокі багатовимірні мережі ДКЧП продемонстрували потужність глибинного навчання з багатьма нелінійними шарами, вигравши три змагання ICDAR 2009 з розпізнавання неперервного рукописного тексту без жодного попереднього знання про три різні мови, яких треба було навчитися.
Свен Бенке, коли тренував свою Нейронну піраміду абстракцій (англ. Neural Abstraction Pyramid) для розв'язання задач на кшталт відбудови зображень та локалізації облич, покладався лише на знак градієнту ( Rprop [en] ).
Інші методи також використовують некероване попереднє тренування для структурування нейронної мережі, даючи їй спочатку навчитися в цілому корисних детекторів ознак [en] . Тоді мережу тренують далі керованим зворотним поширенням, класифікувати мічені дані. Глибинна модель Хінтона та ін. (2006 року) включає навчання розподілу високорівневого представлення із застосуванням послідовних шарів двійкових або дійснозначних латентних змінних. Для моделювання кожного нового шару ознак вищого рівня вона застосовує обмежену машину Больцмана. Кожен новий шар гарантує збільшення нижньої межі логарифмічної правдоподібності даних, тим самим покращуючи модель, за правильного тренування. Після того, як було навчено достатньо багато шарів, ця глибинна архітектура може використовуватися як породжувальна модель шляхом відтворення даних при здійсненні вибірки вниз по моделі («родовий прохід», англ. "ancestral pass"), починаючи з активації ознак найвищого рівня. Хінтон повідомляє, що його моделі є ефективними для виділяння ознак зі структурованих даних високої розмірності.
Вдосконалення апаратного забезпечення призвело до того, що з 1991 по 2015 рік обчислювальна потужність (особливо забезпечувана графічними процесорами) зросла приблизно в мільйон разів, що робить стандартне зворотне поширення прийнятним для мереж на декілька шарів глибше, ніж коли було усвідомлено проблему зникання градієнту. Шмідгубер зауважує, що це «є, в основному, тим, що нині виграє багато зі змагань з розпізнавання зображень», але що воно «не долає насправді проблему фундаментальним чином».