III.2 - Método dos Mínimos Quadrados

Neste parágrafo vamos estudar a aproximar de funções numa perspectiva diferente da interpolação. Por exemplo, se tivermos apenas os valores da função em certos pontos, não vamos exigir que a função aproximadora interpole a função dada nos pontos, ao invés, exigimos que essa função aproximadora tome valores, nesses pontos, de forma a minimizar a distância aos valores dados... falamos em minimizar, no sentido dos mínimos quadrados!

Isto é importante em termos de aplicações, já que podemos ter valores obtidos, experimentalmente, com uma certa incerteza. Ao tentar modelizar essa experiência, com uma certa classe de funções, é inadequado exigir que a função aproximadora interpole esses pontos.

Um caso simples, em que se aplica esta teoria é o caso da regressão linear, em que tentamos adaptar a um conjunto de pontos e valores dados, a "melhor recta", que (neste caso) será a recta que minimiza a soma quadrática das diferenças entre os valores dados ao valores da recta, nesses pontos.

Regressão Linear: Neste caso pretendemos encontrar a função do tipo a + b x
(... ou seja, a recta) que "melhor se adapta" aos valores dados.

Esta é uma perspectiva discreta, em que o conjunto de valores dados é finito.
Podemos também pensar num caso contínuo, em que apesar de conhecermos a função, não apenas em certos pontos, mas em todo um intervalo, estamos interessados em aproximar essa função (... no sentido dos mínimos quadrados) por funções de uma outra classe, mais adequada ao problema que pretendemos resolver. Por exemplo, podemos estar interessados em determinar qual a "melhor recta" que aproxima a função sin(x) no intervalo [0, 1] ...

A recta que melhor aproxima sin(x) no intervalo [0,1],
no sentido dos mínimos quadrados

Caso Discreto

Consideremos, de novo, um conjunto de pontos x₀ , ... , x_n a que estão associados, respectivamente, os valores f(x₀) , ... , f(x_n) .

Temos que considerar agora uma classe de funções, entre as quais vamos tentar encontrar a que "melhor aproxima" aquele conjunto de valores, nos pontos dados.

Vamo-nos concentrar em funções da forma:

em que

₀(x), ... ,

_n(x) são funções base (linearmente independentes), e são conhecidas. Neste caso, apenas teremos que determinar os parâmetros a₀ , ... , a_n , de forma a que a soma quadrática das diferenças entre os f( x_i ) e os g( x_i ) seja mínima.

Faz pois sentido introduzir a norma :

a que está associada o produto interno

A norma e o produto interno estão bem definidos para funções que assumem quaisquer valores nos pontos x₀ , ... , x_n. Convém-nos trabalhar com estas noções, já que aquilo que iremos ver, de seguida, será exactamente igual no caso contínuo, apenas a norma e o produto interno serão diferentes (substituiremos o somatório por um integral...).

Pretende-se pois encontrar os parâmetros a₀ , ... , a_n que minimizem a distância entre f e g , ou, o que é equivalente, minimizem :

Q = || f - g ||² = ( f - g , f - g ) Para obtermos esse mínimo, começamos por procurar os valores a₀ , ... , a_n tais que todas as derivadas parciais de Q sejam nulas, isto é:

Calculamos a derivada parcial, usando as propriedades da derivação do produto interno :

Por outro lado

e assim obtemos, para cada j de 0 até m :

( f - g ,

_j ) = 0

Podemos ainda substituir a expressão de g e obtemos um sistema linear :

designado por Sistema Normal, que escrevemos matricialmente :

Exemplo: No caso de considerarmos a aproximação através de funções polinomiais,
temos como funções base, ₀ = 1, ... , _m = x^m, e assim obtemos:

Verifica-se que o sistema normal é possível e determinado, pois as funções base são linearmente independentes e temos:

Teorema: A matriz do sistema normal é definida positiva sse as funções base ₀ , ... , _m forem linearmente independentes.

Observações:

1) A matriz Hessiana de Q coincide justamente com a matriz do sistema normal. Fica assim justificado que a solução do sistema normal, como se trata de um ponto crítico de Q, e a matriz Hessiana é definida positiva, será o mínimo do funcional Q.

2) Como a matriz é simétrica e definida positiva, o método apropriado para resolver o sistema normal é o método de Cholesky.

3) No caso discreto, sendo os elementos da matriz do sistema normal (

_i ,

_j) =

_i ( x₀ )

_j ( x₀ ) + ... +

_i ( x_n )

_j ( x_n )

podemos reparar que se trata de um produto na forma X^TX , em que X é a matriz n x m :

No caso polinomial, esta matriz X é a matriz de Vandermonde.

Caso Contínuo

Vamos considerar agora que conhecemos a função f não apenas em alguns pontos, mas sim num determinado intervalo [a, b] . Mais uma vez estamos interessados em aproximar f por funções da forma

ou seja, com dependência linear dos parâmetros.

A única diferença existente, face ao caso discreto, está na norma e no produto interno :

Tudo se deduz de forma semelhante, e obtemos também um sistema normal, cuja única diferença está no significado dos produtos internos.

Exemplo:
No caso em que consideramos como funções base, os polinómios, ₀ = 1, ... , _m = x^m, obtemos agora o sistema normal

Interpretação Geométrica dos Mínimos Quadrados

Existe uma analogia evidente entre os M. Mínimos Quadrados e a determinação do ponto de um plano que a menor distância se encontra, de um outro, exterior ao plano.

Através de um produto interno podemos falar na projecção ortogonal, e reparamos que, exigir:

( f - g ,

_m ) = 0 é exigir que f - g seja ortogonal a todos os

_j .