Razões para o Termo de Erro em Modelos de Regressão

Classificado em Economia

Escrito em em português com um tamanho de 5,06 KB.

  1. Caráter vago da teoria: A teoria, se existe alguma, que explica o comportamento de Y pode ser, e muitas vezes é, incompleta. Podemos saber com certeza que a renda semanal X influencia as despesas de consumo semanais Y, mas podemos desconhecer ou não ter certeza de quais são as outras variáveis que afetam Y. Portanto, ui pode ser usado como um substituto para todas as variáveis excluídas ou omitidas do modelo.
  2. Indisponibilidade de dados: Mesmo se soubermos quais são algumas das variáveis excluídas e, portanto, considerarmos uma regressão múltipla em vez da simples, talvez não tenhamos informações quantitativas a respeito dessas variáveis. É muito comum na análise empírica que os dados que gostaríamos idealmente de incluir não estejam disponíveis. Por exemplo, em princípio poderíamos incluir a riqueza da família, além da renda, como variável explanatória para explicar as despesas de consumo, mas infelizmente essa informação não costuma estar disponível. Podemos ser obrigados a omitir a variável riqueza de nosso modelo, apesar de sua grande relevância teórica para explicar as despesas de consumo.
  3. Variáveis essenciais versus variáveis periféricas/secundárias: Suponha que, no nosso exemplo de consumo e renda, além da renda X1, o número de filhos por família X2, o gênero X3, a religião X4, a escolaridade X5 e a região geográfica X6 também afetem as despesas de consumo. Mas é bem possível que a influência conjunta de todas ou de algumas dessas variáveis seja tão pequena e seja, na melhor das hipóteses, não-sistemática ou aleatória que, em termos práticos e para consideração de custos, não compense incluí-las explicitamente no modelo. Espera-se que seu efeito combinado possa ser tratado como uma variável aleatória: ui.
  4. Caráter intrinsecamente aleatório do comportamento humano: Mesmo se conseguirmos incluir todas as variáveis relevantes no modelo, sempre haverá uma aleatoriedade “intrínseca” nos Y individuais que não pode ser explicada por mais que nos esforcemos para tanto. Os termos de erro, os u, podem refletir bem a aleatoriedade intrínseca.
  5. Variáveis proxy pouco adequadas: Embora o modelo clássico de regressão (que será examinado no Capítulo 3) suponha que as variáveis Y e X sejam medidas com exatidão, na prática os dados podem estar infestados de erros de medição. Veja, por exemplo, a conhecida teoria da função consumo de Milton Friedman. Ele considera o consumo permanente (YP) como uma função da renda permanente (XP). Mas, como os dados relativos a essas variáveis não são diretamente observáveis, na prática, utilizamos variáveis proxy, como consumo corrente (Y) e renda corrente (X), que são observáveis. Como os Y e X observados podem não ser iguais aos YP e XP, há um problema de erro de medição. Nesse caso, o termo de erro u também pode representar erro de medição. Como veremos em um capítulo mais à frente, se existirem tais erros de medição, eles podem ter sérias implicações na estimativa dos coeficientes da regressão, os B.
  6. Princípio da parcimônia: De acordo com a navalha de Occam, o ideal seria formular o modelo de regressão mais simples possível. Se pudermos explicar parte “substancial” do comportamento de Y com duas ou três variáveis explanatórias e se nossa teoria não for suficientemente forte para sugerir quais outras variáveis podem ser incluídas, por que adicionar mais variáveis? Melhor deixar que ui represente todas as outras variáveis. Naturalmente, não deveríamos excluir variáveis importantes e relevantes para apenas manter o modelo de regressão simples.
  7. Forma funcional errada: Mesmo se as variáveis explanatórias de um fenômeno forem teoricamente corretas e mesmo se encontrarmos dados para essas variáveis, muitas vezes desconheceremos a forma funcional da relação entre o regressando e os regressores. As despesas de consumo serão uma função linear (invariável) da renda ou uma função não-linear (invariável)? Se for o primeiro caso, Yi = B1 + B2Xi + ui será a relação funcional apropriada entre Y e X; mas, se for o segundo, Yi = B1 + B2 Xi + B3 + Xi² + ui pode ser a forma funcional correta. Nos modelos de duas variáveis, a forma funcional da relação pode muitas vezes ser inferida do gráfico de dispersão. Mas, em um modelo de regressão múltipla, não é fácil determinar a relação funcional adequada, pois não podemos visualizar graficamente diagramas de dispersão com múltiplas dimensões.

Entradas relacionadas: