Regressão e Correlação: Conceitos Essenciais e Diferenças

Classificado em Matemática

Escrito em em português com um tamanho de 4,71 KB

A análise de correlação, cujo principal objetivo é medir a força ou o grau de associação linear entre duas variáveis, está estreitamente relacionada à análise de regressão, mas conceitualmente é muito diferente. A regressão e a correlação têm algumas diferenças fundamentais que vale a pena mencionar. Na análise de regressão, existe uma assimetria na maneira como as variáveis dependente e explanatória são tratadas. Supomos que a variável dependente seja estatística, aleatória ou estocástica, isto é, que tenha distribuição probabilística. Por outro lado, consideramos que as variáveis explanatórias têm valores fixos (em amostras repetidas). Portanto, supusemos que a variável "idade" foi fixada em determinados níveis e que as medições de altura foram obtidas nesses níveis. Na análise de correlação, por outro lado, tratamos quaisquer (duas) variáveis simetricamente; não há distinção entre as variáveis dependente e explanatória. Afinal, a correlação entre as notas nas provas de matemática e de estatística é a mesma que aquela entre as notas das provas de estatística e de matemática.

Na Figura 2.1, os pontos pretos circulados mostram os valores médios condicionais de Y para os diversos valores de X. Se unirmos os valores médios condicionais obteremos o que é conhecido como linha de regressão populacional (LRP) ou, de modo mais geral, a curva de regressão populacional. Simplificando, é a regressão de Y contra X. O qualificativo “populacional” expressa o fato de que neste exemplo estamos lidando com toda a população de 60 famílias. Na realidade, uma população tem muito mais famílias.

Linearidade nas Variáveis

O primeiro, e talvez o significado mais “natural” de linearidade, é o caso em que a expectativa condicional de Y é uma função linear de Xi, como, por exemplo, a Equação (2.2.2). Em termos geométricos, a curva de regressão nesse caso é uma reta. Sob essa interpretação, uma função de regressão como E(Y | Xi) = B1 + B2Xi² não é uma função linear, porque a variável X aparece com um expoente ou índice de 2.

Linearidade nos Parâmetros

A segunda interpretação de linearidade é que a expectativa condicional de Y, E(Y | Xi), é uma função linear dos parâmetros, os Ø; pode, ou não, ser linear na variável X. De acordo com essa interpretação, E(Y | Xi) = B1 + B2Xi² é um modelo de regressão linear (nos parâmetros). Para ver isso, suponhamos que X assume o valor 3. Portanto, E(Y | X = 3) = B1 + 9B2, que é obviamente linear em B1 e B2. Todos os modelos da Figura 2.3 são, portanto, modelos de regressão linear, isto é, modelos lineares nos parâmetros. Agora considere o modelo E(Y | Xi) = B1 + B2²Xi. Suponha que X = 3; então teremos E(Y | Xi) = B1 + 3B2², que é não linear no parâmetro B2. Esse modelo é um exemplo de modelo de regressão não linear (nos parâmetros).De agora em diante, a expressão regressão “linear” significará sempre uma regressão linear nos parâmetros; os B (isto é, os parâmetros) são elevados apenas à primeira potência. Podem ou não ser lineares nas variáveis explanatórias, os X.

Erro Estocástico

O termo de erro ui representa todas as variáveis omitidas no modelo, mas que coletivamente afetam Y. A pergunta óbvia é: por que não introduzir essas variáveis explicitamente no modelo? Ou seja, por que não formular um modelo de regressão com o máximo de variáveis possíveis? Há muitas razões:

  • Caráter vago da teoria
  • Indisponibilidade de dados
  • Variáveis essenciais versus variáveis periféricas/secundárias
  • Caráter intrinsecamente aleatório do comportamento humano
  • Variáveis proxy pouco adequadas
  • Princípio da parcimônia
  • Forma funcional errada

Entradas relacionadas: