Notizie / Giochi

Una spiegazione matematica del deep learning

Il deep learning ha cambiato radicalmente il campo dell'apprendimento automatico (e il mondo di conseguenza) poiché l'apprendimento automatico è ora molto più ampiamente applicato a diversi scenari applicativi, come i sistemi di raccomandazione, il riconoscimento vocale, la guida autonoma e il gioco automatico. Nel 2018, il professor Joshua Bengio, Geoffrey Hinton e Yann Lecun hanno ricevuto il Premio Turing (spesso indicato come il "Premio Nobel per l'informatica") per i loro contributi al deep learning. Tuttavia, il deep learning è ancora considerato una scatola nera da molti ricercatori e professionisti e le spiegazioni teoriche del meccanismo sottostante sono ancora attese con impazienza. Quindi esploriamo perché il principio di base del deep learning è piuttosto generico attraverso le relazioni tra modelli di deep learning all'avanguardia e diversi modelli iniziali che non rientrano nell'intestazione del deep learning (incluso un modello co-inventato da me).

Le reti neurali possono essere interpretate come approssimatori di funzioni universali o come elaboratori di informazioni. Cercheremo di spiegare il meccanismo del deep learning dal punto di vista degli approssimatori di funzioni universali. L'approssimazione funzionale universale è stato un argomento tradizionale e esamineremo alcune reti neurali prima e nell'era del deep learning. Attraverso le loro somiglianze e differenze, mostreremo perché le reti neurali devono essere profonde e quanto devono essere profonde. E la nostra teoria coincide molto bene con le reti neurali convoluzionali attualmente in uso.

Reti neurali tradizionali

Esiste una lunga storia di modelli di reti neurali. E la sua funzione di attivazione è tipicamente una funzione sigmoidale o una funzione tangente iperbolica. Le reti neurali multistrato sono state chiamate percettroni multistrato (MLP) [1]. E potrebbe essere addestrato con il metodo di backpropagation proposto da David Rumelhart, Geoffrey Hinton e Ronald Williams nel 1986, che è fondamentalmente un metodo basato sul gradiente. Queste funzioni di attivazione sono non lineari e lisce. Hanno anche i primi derivati ​​a forma di campana e gamme fisse. Ad esempio, la funzione sigmoidale spinge rapidamente il valore di output verso 0 o 1, mentre la funzione iperbolica tangente spinge rapidamente il valore di output verso -1 o 1. Questo li rende adatti per problemi di classificazione. Tuttavia, all'aumentare del numero di strati, i gradienti iniziano a scomparire a causa dell'uso del metodo di backpropagation. I modelli MLP con uno strato nascosto erano quindi probabilmente i più comuni all'epoca.

Inoltre, è ampiamente noto che l'unità lineare rettificata (ReLU) è stata utilizzata come funzione di attivazione nei modelli di apprendimento profondo in sostituzione delle funzioni tangenti sigmoidali e iperboliche. La sua forma matematica è semplice come max {0, x} e ha un'altra funzione di rampa del nome. Il motivo del suo utilizzo è che la sua pendenza rispetto a x è 1, quindi il gradiente non scomparirà mai all'aumentare del numero di strati. Diamo un'occhiata più da vicino alle reti neurali profonde dal punto di vista di ReLU.

Funzioni lineari continue a tratti

Uno dei primi modelli che utilizzavano ReLU per la regressione e la classificazione sono stati i modelli iperplanari articolati proposti da Leo Breiman nel 1993 [2]. Il professor Breiman è stato un pioniere dell'apprendimento automatico e il suo lavoro collega ampiamente i campi della statistica e dell'informatica. Il modello è la somma di una serie di cerniere e quindi può essere considerato un modello funzionale di base come i modelli B-spline e wavelet. Ogni cerniera nel suo modello è in realtà una funzione massima o minima di due funzioni lineari. Questo modello può essere utilizzato sia per la regressione che per la classificazione. Un problema di classificazione binaria può essere considerato direttamente come un problema di regressione, mentre un problema di classificazione multiclasse può essere considerato un problema di regressione multipla.

Il modello proposto da Breiman può essere pensato come funzioni unidimensionali continue a tratti lineari (CPWL). Shunning Wang ha dimostrato nel 2004 che questo modello può rappresentare funzioni lineari a tratti continue arbitrarie in una dimensione e l'annidamento di tali tipi di modelli è necessario per la rappresentazione di funzioni CPWL arbitrarie con input multidimensionali. [3]. Sulla base di questo risultato teorico, Ian Goodfellow ha proposto una profonda rete neurale ReLU denominata Maxout networks nel 2013 [4]. La base teorica per l'utilizzo delle funzioni CPWL per approssimare funzioni non lineari arbitrarie è semplicemente il teorema di Taylor per le funzioni multivariate nel calcolo.

Dagli anni '1970, Leon O. Chua e altri ricercatori hanno proposto una rete neurale cellulare per rappresentare le funzioni CPWL con input in diverse dimensioni [5][6][7]. Il professor Leon Chua ha dato un grande contributo nel campo dei circuiti e dei sistemi e questo lavoro ha ricevuto prestigiosi riconoscimenti dalla comunità delle reti neurali. La necessità di una componente non lineare più complicata per rappresentare la struttura con input di due o più dimensioni è stata causata dal problema di separabilità lineare ampiamente noto nell'apprendimento automatico. Nel modello di Breiman, tutti i limiti si verificano quando due funzioni lineari in ciascuna cerniera sono uguali, quindi tutti i limiti sono lineari ed efficienti nell'intero dominio. Pertanto non può rappresentare funzioni CPWL con ingressi bidimensionali come l'esempio mostrato in Figura 1 [8].

Figura 1. Una funzione CPWL con input bidimensionale

Il modello di Chua ha scelto di utilizzare funzioni assolute nidificate per costruire i componenti non lineari del modello e il livello di nidificazione è uguale alla dimensione dell'input. Quindi questo modello può avere molti parametri quando la dimensione di input è alta.

Nel 2005, Shunning Wang e Xusheng Sun hanno generalizzato il modello articolato dell'iperpiano a dimensioni arbitrarie [8]. Hanno dimostrato che qualsiasi funzione CPWL può essere rappresentata dalla somma delle funzioni massime o minime di al massimo N + 1 funzioni lineari, dove N è la dimensione dell'input. Hanno anche sottolineato che equivale a una rete neurale profonda con due caratteristiche: in primo luogo, la funzione di rampa viene utilizzata come funzione di attivazione; in secondo luogo, il numero massimo di strati è il soffitto di log2(N+1), dove N è la dimensione dell'input. Ciò ha notevolmente ridotto il limite teorico sul numero di strati. E in generale, questo modello può essere addestrato utilizzando metodi basati su gradiente. Negli ultimi dieci anni, molto lavoro è stato svolto nel campo degli algoritmi e dell'architettura per rendere la formazione migliore e più semplice.

Modelli di apprendimento profondo

Una delle grandi pietre miliari nella storia del deep learning è AlexNet utilizzato in un concorso ImageNet nel 2012 [9]. Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton hanno proposto un modello di rete neurale profonda che consiste in 8 strati convoluzionali o densi e pochi strati massimi di clustering. La rete ha ottenuto un errore nei primi 5 test del 15,3%, più di 10,8 punti percentuali in meno rispetto al secondo classificato. Il suo input è 224 * 224 in ciascuno dei canali RGB, quindi la sua dimensione totale è 224 * 224 * 3. Quindi il nostro limite sulla profondità della rete neurale è 18. Quindi, se il limite è significativo, sarebbero possibili reti neurali più profonde per aumentare la precisione. Karen Simonyan e Andrew Zisserman hanno proposto il modello VGG nel 2014 [10]. Ha varianti tipiche con 16 o 19 strati convoluzionali o densi e una precisione ulteriormente migliorata come previsto. Questo coincide bene con la nostra teoria e c'è almeno un'altra cosa che può essere fatta per aumentare ulteriormente la precisione in alcuni casi.

In AlexNet e VGG, la profondità della sottorete che termina a ciascuna funzione di abilitazione è la stessa. È infatti sufficiente garantire che un numero sufficiente di componenti nelle reti non sia inferiore al limite. In altre parole, il numero di funzioni lineari in ciascuna funzione massima o minima nel modello di iperpiano articolato generalizzato potrebbe essere flessibile in pratica. E potrebbe essere più efficiente in termini di parametri avere alcuni componenti con una profondità ancora maggiore e alcuni componenti con una profondità inferiore. Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun hanno proposto il modello ResNet nel 2015 [11]. Questo modello ha scelto di consentire ad alcuni componenti di bypassare alcuni livelli precedenti. Generalmente, questo modello è più profondo e più stretto e ha una variante profonda fino a 152 strati e ha una precisione ulteriormente migliorata.

Ci siamo concentrati sulle reti neurali convoluzionali in questo articolo. Altre reti neurali profonde come le reti neurali ricorrenti devono essere spiegate da altre teorie. Inoltre, ci sono ancora nuove innovazioni nel campo delle funzioni di attivazione come l'unità lineare esponenziale (ELU) [12]. A mio avviso, la modellazione e gli algoritmi di addestramento, la disponibilità dei dati, l'infrastruttura informatica e gli scenari applicativi hanno reso il deep learning ampiamente applicato al giorno d'oggi.

I riferimenti:

[1] DE Rumelhart, GE Hinton e RJ Williams (1986) Apprendere le rappresentazioni mediante la retropropagazione degli errori. Natura, 323, 533-536.

[2] L. Breiman, "Iperpiani articolati per la regressione, la classificazione e l'approssimazione di funzioni", IEEE Trans. Inf. Teoria, vol. 39, n. 3, pag. 999-1013, maggio 1993.

[3] S. Wang, "Rappresentazioni costruttive generali per funzioni lineari a tratti continue", IEEE Trans. Circuiti di sistema Io, reg. Carte, vol. 51, n. 9, pag. 1889-1896, settembre 2004.

[4] IJ Goodfellow, D. Warde-Farley, M. Mirza, A. Courville e Y. Bengio. "Reti Maxout", ICML, 2013.

[5] LO Chua e SM Kang, "Funzioni lineari sezionali a pezzi: rappresentazione canonica, proprietà e applicazioni", IEEE Trans. Circuiti di sistema, vol. CAS-30, n. 3, pag. 125-140, marzo 1977.

[6] LO Chua e AC Deng, "Rappresentazione lineare a tratti canonica", IEEE Trans. Circuiti di sistema, vol. 35, n. 1, pag. 101-111, gennaio 1988.

[7] J. Lin e R. Unbehauen, "Canonical Piecewise Linear Networks", IEEE Trans. Rete neurale, vol. 6, n. 1, pag. 43-50, gennaio 1995.

[8] S. Wang e X. Sun, “Generalization of hining hyperplanes”, in IEEE Transactions on Inf. Teoria, vol. 51, n. 12, pp.4425-4431, dicembre 2005.

[9] A. Krizhevsky, I. Sutskever e G. Hinton. Classificazione Imagenet con reti neurali convoluzionali profonde. NIP, 2012.

[10] K. Simonyan e A. Zisserman. "Reti convoluzionali molto profonde per il riconoscimento di immagini su larga scala", ICLR, 2015.

[11] K. He, X. Zhang, S. Ren e J. Sun. Apprendimento residuo profondo per il riconoscimento delle immagini. CVPR, 2015.

[12] D.-A. Clevert, T. Unterthiner e S. Hochreiter, "Apprendimento rapido e accurato della rete tramite unità lineari esponenziali (ELUS)", ICLR, 2016.


Né Roblox Corporation né questo blog avallano o supportano alcuna azienda o servizio. Inoltre, non viene fornita alcuna garanzia o promessa in merito all'accuratezza, affidabilità o completezza delle informazioni contenute in questo blog.

Questo post del blog è apparso originariamente sul blog Roblox Tech.