Post by Ronieperchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
Vogliamo determinare due cose:
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
Per es.:
t=0: p + 0v = p
t=1: p + 1v = p + v = p + (q-p) = q
t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2 [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
= f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
Si potrebbe dire che t influenza f "a diamante":
f
/ \
x+ta y+tb
\ /
t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
(influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
= d(x+ta)/dt * df(x+ta)/d(x+ta)
= a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
= (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
Ora calcoliamo g''(t), indicando (f_1)_1 con f_11, ecc...:
g''(t) = g'(t)
= d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
= ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
= ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
= f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
[f_11 f_12]
[f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
g''(t) = [a b] H(x+ta, y+tb) [a b]^T
= v^T H(x+ta, y+tb) v
= v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm