Машинне навчання та добування даних |
---|
![]() |
Задачі
|
Кероване навчання (класифікація • регресія)
|
Кластерування
|
Зниження розмірності
|
Структурове передбачування
|
Виявлення аномалій
|
Нейронні мережі
|
Навчання з підкріпленням
|
Теорія
|
Місця машинного навчання
|
В машинному навчанні навча́ння озна́к (англ. feature learning) або навча́ння предста́влень (англ. representation learning) — це набір методик навчання ознаки: перетворення сирого входу даних на представлення, яке зможе ефективно використовуватися в завданнях машинного навчання. Воно дозволяє позбутися ручного проектування ознак, яке в іншому разі було би необхідним, і дозволяє машині як вчитися на конкретному завданні (застосовуючи ознаки), так і вчитися самих ознак: вчитися, як вчитися.
Необхідність у навчанні ознак обумовлено тим фактом, що такі завдання машинного навчання, як класифікація, часто потребують входу, що є математично та обчислювально зручним для обробки. Проте дані реального світу, такі як зображення, відео та давачеві вимірювання є зазвичай складними, надлишковими й дуже мінливими. Тому в сирих даних необхідно виявляти зручні ознаки або представлення. Традиційні ознаки ручної роботи часто вимагають дорогої людської праці, та часто покладаються на знання фахівців. Крім того, вони, як правило, погано узагальнюються. Це спонукає розробляти дієві методики навчання ознак, для автоматизації та узагальнення.
Навчання ознак може бути поділено на дві категорії: кероване та спонтанне навчання ознак, аналогічно цим категоріям в машинному навчанні загалом.
Кероване навчання ознак здатне навчатися ознак з мічених даних. Далі наведено кілька підходів до нього.
Навчання словника є навчанням набору (словника) показових елементів із вхідних даних, таких, що кожну точку даних може бути представлено як зважену суму показових елементів. Елементи словника та вагові коефіцієнти може бути знайдено мінімізацією середньої похибки представлення (над вхідними даними), разом з L1-регуляризацією вагових коефіцієнтів для забезпечення розрідженості (тобто, щоби представлення кожної точки даних мало лише декілька ненульових вагових коефіцієнтів).
Кероване навчання словника (англ. supervised dictionary learning) для оптимізації елементів словника використовує як структуру, що стоїть за вхідними даними, так і мітки. Наприклад, одну з методик керованого навчання словника було запропоновано Мейралем та ін. 2009 року. Автори застосовують навчання словника до задач класифікації шляхом спільної оптимізації на основі вхідних даних елементів словника, вагових коефіцієнтів для представлення точок даних, та параметрів класифікатора. Зокрема, сформульовано задачу мінімізації, в якій цільова функція складається з похибки класифікації, похибки представлення, L1-регуляризації вагових коефіцієнтів, що представляють кожну точку даних (для забезпечення розрідженого представлення даних) та L2-регуляризації параметрів класифікатора.
Нейронні мережі використовуються для пояснення сімейства алгоритмів навчання через «мережу», що складається з кількох шарів з'єднаних між собою вузлів. Вони натхнені нервовою системою, де вузли розглядаються як нейрони, а ребра розглядаються як синапси. Кожне ребро має пов'язану з ним вагу, а мережа визначає обчислювальні правила, за якими вхідні дані проходять від вхідного шару до вихідного. Функція мережі, пов'язана з нейронною мережею, характеризує співвідношення між вхідним та вихідним шарами, що параметризується ваговими коефіцієнтами. Для відповідно визначених функцій мережі різні завдання навчання можуть виконуватися шляхом мінімізації функції втрат над функцією мережі (ваговими коефіцієнтами).
Для виконання навчання ознак можуть використовуватися багатошарові нейронні мережі, оскільки вони навчаються представлення їхнього входу на прихованих шарах, яке потім використовується для класифікації або регресії на вихідному шарі.
Спонтанне навчання ознак є для навчання ознак з немічених даних. Метою спонтанного навчання ознак часто є виявлення ознак низької розмірності, що схоплюють певну структуру, що лежить за вхідними даними високої розмірності. Коли навчання ознак виконується спонтанним чином, воно уможливлює певний вид напівавтоматичного навчання, коли спочатку відбувається навчання ознак з неміченого набору даних, які потім застосовуються для покращення продуктивності в керованому режимі з міченими даними. Далі наведено кілька підходів.
Для зниження розмірності часто застосовують метод головних компонент (МГК, англ. principal component analysis, PCA). Для заданого неміченого набору n векторів вхідних даних МГК породжує p (що є набагато меншим за розмірність вхідних даних) правих сингулярних векторів, що відповідають p найбільшим сингулярним числам матриці даних, де k-тий рядок матриці даних є k-тим вхідним вектором вхідних даних, зсунутим на вибіркове середнє входу (тобто, з відніманням вибіркового середнього від вектора даних). Рівнозначно, ці сингулярні вектори є власними векторами, що відповідають p найбільшим власним значенням вибіркової коваріаційної матриці вхідних векторів. Ці p сингулярних векторів є векторами ознак, навченими з вхідних даних, і вони представляють напрямки, вздовж яких дані мають найбільший розкид.
МГК є лінійним підходом до навчання ознак, оскільки p сингулярних векторів є лінійними функціями матриці даних. Сингулярні вектори може бути породжено простим алгоритмом з p ітерацій. На i-тій ітерації віднімається проекція матриці даних на (i-1)-й власний вектор, і знаходиться i-тий сингулярний вектор як правий сингулярний вектор, що відповідає найбільшому сингулярному числу залишкової матриці даних.
МГК має кілька обмежень. По-перше, він припускає, що напрямки з найбільшою дисперсією становлять найвищий інтерес, що в багатьох застосуваннях може бути не так. МГК покладається лише на ортогональні перетворення первинних даних, і використовує моменти даних лише першого та другого порядків, які можуть не добре характеризувати розподіл даних. Більше того, МГК може дієво зменшувати розмірність лише тоді, коли вектори вхідних даних є корельованими (що призводить до кількох домінантних власних значень).
Локальне лінійне вкладення [en] (ЛЛВ, англ. local linear embedding, LLE) є нелінійним підходом до спонтанного навчання для породження представлень низької розмірності, що зберігають сусідство, з (неміченого) входу високої розмірності. Цей підхід було запропоновано Семом Ровейсом та Лоуренсом Солом 2000 року.
Загальною ідеєю ЛЛВ є відбудова первинних даних високої розмірності із застосуванням точок нижчої розмірності при збереженні деяких геометричних властивостей околів у первинному наборі даних. ЛЛВ складається з двох основних етапів. Перший етап слугує «збереженню сусідства», на ньому кожна точка вхідних даних Xi відбудовується як зважена сума K найближчих сусідніх точок даних, і знаходяться оптимальні вагові коефіцієнти шляхом мінімізації середньої квадратичної похибки відбудови (тобто різниці між точкою та її відбудовою) за обмеження, що вагові коефіцієнти, пов'язані з кожною точкою даних, повинні в сумі давати одиницю. Другий етап слугує «зниженню розмірності» шляхом пошуку векторів у просторі нижчої розмірності, що мінімізує помилку представлення із застосуванням оптимізованих вагових коефіцієнтів з першого етапу. Зауважте, що на першому етапі вагові коефіцієнти оптимізуються при незмінних даних, що може розв'язуватися як задача найменших квадратів; тоді як на другому етапі точки нижчої розмірності оптимізуються при незмінних вагових коефіцієнтах, що може розв'язуватися через розріджений власний розклад.
Вагові коефіцієнти відбудови, отримані на першому етапі, схоплюють «внутрішні геометричні властивості» околу у вхідних даних. Вважається, що первинні дані лежать на гладкому многовиді нижчої розмірності, і очікується, що «внутрішні геометричні властивості», схоплені ваговими коефіцієнтами первинних даних, є також на цьому многовиді. Ось чому ті ж самі вагові коефіцієнти використовуються на другому етапі ЛЛВ. У порівнянні з МГК, ЛЛВ є потужнішим у використанні внутрішньої структури даних.
Метод незалежних компонент [en] (МНК, англ. Independent component analysis, ICA) — це методика для навчання представлення даних із застосуванням зваженої суми незалежних не-ґаусових компонент. Припущення про не-ґаусовість накладається тому, що вагові коефіцієнти не може бути визначено однозначно, якщо всі компоненти слідують ґаусовому розподілу.
На відміну від керованого навчання словника, спонтанне навчання словника (англ. unsupervised dictionary learning) для оптимізації словникових елементів не користується мітками на даних, а використовує лише їхню внутрішню структуру. Прикладом спонтанного навчання словника є розріджене кодування, спрямоване на навчання базисних функцій (словникових елементів) для представлення даних із немічених вхідних даних. Розріджене кодування може застосовуватися для навчання переповненого словника, в якому кількість елементів більша за розмір вхідних даних. Аарон та ін. запропонували алгоритм, відомий як K-СРМ (англ. K-SVD), для навчання з немічених вхідних даних словника елементів, що уможливлює розріджене представлення даних.
Ієрархічна будова нервової системи надихає архітектури глибинного навчання для навчання ознак декількома накладеними шарами простих блоків навчання. Ці архітектури часто розробляють на основі припущення про Розподілене представлення : спостережувані дані породжуються взаємодіями багатьох різних чинників на декількох рівнях. В архітектурі глибинного навчання вихід кожного проміжного шару може розглядатися як представлення первинних вхідних даних. Кожен рівень використовує представлення, вироблене попереднім рівнем, як вхід, і виробляє нові представлення на виході, що потім подаються до вищих рівнів. Входом найнижчого рівня є сирі дані, а виходом завершального рівня є остаточна ознака або представлення низької розмірності.
Як будівельні блоки для архітектур багатошарового навчання часто використовують обмежені машини Больцмана (ОМБ, англ. restricted Boltzmann machine, RBM). ОМБ може бути представлено неорієнтованим дводольним графом, що складається з групи двійкових [en] прихованих змінних, групи видимих змінних, та ребер, що з'єднують приховані та видимі вузли. Вона є окремим випадком загальніших машин Больцмана з обмеженням відсутності міжвузлових з'єднань. Кожне ребро в ОМБ пов'язане з ваговим коефіцієнтом. Вагові коефіцієнти разом зі з'єднаннями визначають енергетичну функцію, на основі якої може бути винайдено спільний розподіл видимих та прихованих вузлів. Виходячи з топології ОМБ, приховані (видимі) змінні незалежно обумовлено видимими (прихованими) змінними. Така умовна незалежність полегшує обчислення на ОМБ.
ОМБ може розглядатися як одношарова архітектура для спонтанного навчання ознак. Зокрема, видимі змінні відповідають вхідним даним, а приховані змінні відповідають детекторам ознак. Вагові коефіцієнти може бути треновано максимізацією ймовірності видимих змінних із застосуванням алгоритму порівняльної розбіжності (ПР, англ. contrastive divergence, CD) Джефрі Хінтона.
В цілому, тренування ОМБ розв'язанням наведеної вище задачі максимізації призводить в результаті до не розріджених представлень. Для уможливлення розріджених представлень було запропоновано видозміну ОМБ, розріджену ОМБ (англ. sparse RBM). Ідея полягає в додаванні до цільової функції правдоподібності даних члена регуляризації, який штрафував би відхилення очікуваних прихованих змінних, починаючи з невеликої сталої .
Однією з парадигм для архітектур глибинного навчання є автокодувальник, що складається з кодувальника та декодувальника. Хінтоном та Салахутдіновим було запропоновано приклад, в якому кодувальник використовує сирі дані (наприклад, зображення) як вхід, і виробляє ознаку або представлення як вихід, а декодувальник використовує виявлені кодувальником ознаки як вхід, і відбудовує первинні вхідні сирі дані як вихід. Кодувальник та декодувальник побудовано накладенням декількох шарів ОМБ. Параметри, залучені до цієї архітектури, в оригіналі було треновано жадібним пошаровим чином: після того, як один шар було навчено детекторів ознак, вони подаються до вищих шарів як видимі змінні для тренування відповідної ОМБ. Поточні підходи зазвичай застосовують тренування з краю в край методами стохастичного найшвидшого спуску. Тренування може тривати доти, поки не задовольниться певний критерій зупинки.