Regressão linear

Origem: Wikipédia, a enciclopédia livre.

Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.[1][2]

Exemplo de regressão linear.

A regressão, em geral, tem como objetivo tratar de um valor que não se consegue estimar inicialmente.

A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear. Sendo uma das primeiras formas de análise regressiva a ser estudada rigorosamente, é usada extensamente em aplicações práticas. Isso acontece porque modelos que dependem de forma linear dos seus parâmetros desconhecidos, são mais fáceis de ajustar que os modelos não-lineares aos seus parâmetros, e porque as propriedades estatísticas dos estimadores resultantes são fáceis de determinar.[3]

Modelos de regressão linear são frequentemente ajustados usando a abordagem dos mínimos quadrados, mas que também pode ser montada de outras maneiras, tal como minimizando a "falta de ajuste" em alguma outra norma (com menos desvios absolutos de regressão), ou através da minimização de uma penalização da versão dos mínimos quadrados. Por outro lado, a abordagem de mínimos quadrados pode ser utilizado para ajustar a modelos que não são modelos lineares. Assim, embora os termos "mínimos quadrados" e "modelo linear" estejam intimamente ligados, eles não são sinônimos. [carece de fontes?]

Equação da Regressão Linear[editar | editar código-fonte]

Para se estimar o valor esperado, usa-se de uma equação, que determina a relação entre ambas as variáveis.

, onde:

: Variável explicada (dependente); representa o que o modelo tentará prever

: É uma constante, que representa a interceptação da reta com o eixo vertical;

: Representa a inclinação (coeficiente angular) em relação à variável explicativa;

: Variável explicativa (independente);

: Representa todos os factores residuais mais os possíveis erros de medição. O seu comportamento é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros devem satisfazer determinadas hipóteses, que são: terem distribuição normal, com a mesma variância , independentes e independentes da variável explicativa X, ou seja, i.i.d. (independentes e identicamente distribuídas).

Notação Matricial[editar | editar código-fonte]

A equação acima pode ser reescrita em forma de matriz:

Onde é uma matriz de observações, é uma matriz de tamanho (sendo a primeira coluna com valores sempre = 1, representando a constante , e é a quantidade de variáveis explicativas), é uma matriz de variáveis explicativas (sendo que representa a constante ) e é uma matriz de de resíduos.

Estimativa dos fatores e [editar | editar código-fonte]

A técnica mais usual para estimativa dos parâmetros e é o Método dos mínimos quadrados, mas também podem ser usados:

Interpretação dos parâmetros do modelo[editar | editar código-fonte]

O chamado intercepto ou coeficiente linear () é utilizado para representar o ponto em que a reta da regressão corta o eixo Y quando X = 0. Já o parâmetro  representa a inclinação da reta ( ) é denominado como coeficiente de regressão ou coeficiente angular. A interpretação geométrica dos coeficientes podem ser vistos na imagem abaixo.

Uma desvantagem é que o modelo de regressão linear simples não acomoda impactos de erros experimentais (variação de matéria prima), de erros de medida, entre outras inúmeras fontes de variabilidade


Com base no modelo representado na imagem assim, é possível identificar que :

  • A relação matemática entre Y e X é linear
  • Os valores de x são fixos (ou controlados), isto é, x não é uma variável aleatória
  • A média do erro é nula, ou seja .

Dado isto, temos que a regressão do modelo acima e dado por:

  • Sabendo que para cada valor de X, a variação de será sempre , teremos que:

Assim temos que :

Quando deparamos com casos como este, dizemos que o erro é homocedástico, ou seja, a variância é constante.

  • Em casos como esse, esta hipótese não implica que os erros sejam independentes. Se a distribuição dos erros for normal,  esta hipótese é equivalente a independência dos erros.

Ver também[editar | editar código-fonte]

Ligações externas[editar | editar código-fonte]

Referências

  1. «Linear regression» (PDF) (em inglês). Stanford.edu. Consultado em 10 de julho de 2019 
  2. «Chapter 9 - Simple linear regression» (PDF) (em inglês). Carnegie Mellon University - Statistics & Data Science. Consultado em 10 de julho de 2019 
  3. http://www.fisica.ufs.br/egsantana/cinematica/regresion/regresion.htm Regressão linear com experimêntos físicos [ligação inativa]

Bibliografia[editar | editar código-fonte]

  • REIS, E., Estatistica Descritiva (2ª ed.). Lisboa: Edições Sílabo, 1994