2025.04.30 - Lecture 3

Con un modello lineare si riesce a trovare in forma chiusa sia la funzione per trovare il residuo, sia per l’aggiornamento dei parametri. Queste forme chiuse ci aiutano a capire come in funzione dei parametri di ingresso come queste influenzano i tempi di convergenza e la convergenza stessa (totale o meno).

È possibile estendere questo framework nel caso di una rete neurale che non è lineare?
infinite-width neural network. Ha un’estensione infinita del numero di neuroni che si comporta ll’infinito come un modello lineare che ci da la possibilità di utilizzare il framework del regressore lineare anche su una rete neurale.

Come si definisce una metodologia per verificare che questa assunzione sia vera?

Al variare di numero di neuroni, i coefficienti della matrice del primo layer, tra la fase di training e quella finali, c’è poca differenza. I pesi sembrano cambiare poco.
Qual è la relazione tra il fatto che cambia poco la matrice il sistema può essere linearizzato?

il kernel in geometria è un insieme di vettori per mappare determinati vettori in altri. In un regressore lineare un kernel è una base che mappa gli input verso gli output che è quanto più possibile simile alla ground truth.

Quando si verifica questa condizione, ovvero quando i pesi cambiano poco perché si hanno tanti neuroni, significa che il kernel cambia poco.

Output della rete neurale

f (x, ϕ) = \frac{1}{D} \sum θ_{d} \times σ (ϕ_{d} X)

Il fatto che i parametri variano poco ci permette di trattare questo come un comportamento lineare

durante l’aggiornamento dei pesi ( $ϕ_{d} X$ ) devo verificare che il comportamento della derivata di $f (x, ϕ)$ sia limitato, ovvero varierà il residuo man mano che cambiamo $ϕ_{D}$ .
Il modo più diretto per mettere in relazione queste due cose è passare tramite la funzione obbiettivo che vogliamo minimizzare (es. MSE):

L = \frac{1}{2} i \sum (f (X_{i}, ϕ), y_{i})^{2}

L’aggiornamento avviene tramite aggiornamento stocastico.

\frac{d ϕ}{d t} = \frac{\partial L}{\partial ϕ} = \frac{1}{D} i \sum (f (X_{i}, ϕ_{d}) - y_{i}) X ? σ^{'} (ϕ_{d} X)

Integriamo

\int_{0}^{T} \frac{d ϕ}{d t} = ϕ_{T} - ϕ_{0} = \frac{1}{D} i \sum (f (X_{i}, ϕ_{d}) - y_{i}) X O σ^{'} (ϕ_{d} X)

∣∣ ϕ_{T} - ϕ_{0} ∣∣ \leq \int_{0}^{T} ∣∣ \frac{d ϕ}{d t} ∣∣ d_{t} = \frac{1}{D} i \sum (f (X_{i}, ϕ_{d}) - y_{i}) X O σ^{'} (ϕ_{d} X)

Il sistema is può linearizzare all’aumento del numero di neuroni.
$\frac{1}{D}$ È l’upper bound dell’aggiornamento dei pesi, e questo è vero con $T$ che tende a infinito che non.

Possiamo quindi approssimare la rete come:

f (x, ϕ) = f (x, ϕ_{0}) + \frac{\partial f ( x , ϕ _{θ} ) ^{T}}{\partial ϕ} (ϕ - ϕ_{0})

E questo ci permette di trattarla in maniera “lineare”.

Come verificare empiricamente che questo sia vero in un caso studio?
Liu et al., 2020.

Per poter dire che la rete garantisce la linearizzazione al crescere di D, si guarda l’essiano e la norma quadratica del gradiente.
L’essiano in uno spazio n-dimensionali misura la curvatura della funzione.
Dipende dal rapporto della curvatura e del gradiente. La curvatura al crescere D deve essere 0, mentre la norma quadratica del gradiente deve essere costante al crescere di D.

È utile per capire quanto velocemente converge una rete e come qli input influenza la convergibilità del modello.
Usiamo dei metodi di kernel per approssimare la funzione della rete come

f (X, ϕ) = f (0) + k er n e l (X) ϕ

Questi servivano in geometria per approssimare delle funzioni dato che il kernel mappa l’input verso l’output according to qualche parametro. Il kernel riesce a fare una linearizzazioni nonostante il mapping sia fatto di funzioni non lineari.

f (x, ϕ) = y + e x p {- \frac{\partial f ( x , ϕ )}{\partial ϕ} \frac{\partial f ( x , ϕ )}{\partial ϕ} t} (f (x, ϕ_{0}) - y)

NT K [x_{i}, x_{j}] = \frac{1}{D} O_{d}^{2} σ^{'} (X_{i} ϕ_{D}) σ^{'} (X_{J}, ϕ_{D}) X_{i} X_{j}^{T}

📚 Michele's Notes

Explorer

2025.04.30 - Lecture 3

Graph View

Backlinks