Guia de Análise Estatística: Testes e Correlações

Classificado em Matemática

Escrito em em português com um tamanho de 5,37 KB

Limitações do Teste do Qui-quadrado

O teste apresenta as seguintes características e limitações:

  • Apenas testa a existência de associação;
  • O limite superior variável é dependente da dimensão da tabela e do número de observações.

Restrições à aplicação do teste:

  • Nenhuma célula pode ter frequência esperada (fe) inferior a 1;
  • Não mais de 20% das células podem ter fe inferior a 5.

Coeficientes de Associação

Coeficiente de Phi:

  • Vantagens: Mostra-nos a força; compara as frequências observadas e as esperadas;
  • Limites: O valor máximo não é fixo, o que leva a ter sempre em atenção a interpretação.

Coeficiente de Contingência:

  • Limites: Temos que fazer sempre cálculos para determinar o valor máximo; não é uma medida perfeita.

Coeficiente V de Cramer:

  • Vantagens: O valor máximo é 1; pode ser utilizado em todas as circunstâncias.

Coeficiente Lambda

Vantagens:

  • Pode ser utilizado mesmo em variáveis cujo nível de medida é mínimo;
  • Pode ser utilizado seja qual for a dimensão da tabela;
  • Não assume qualquer pressuposto relativamente à distribuição de frequências das variáveis.

Desvantagens:

  • É uma medida assimétrica, logo exige a definição prévia do nexo de dependência entre as variáveis;
  • Não indica a direção da associação entre as variáveis;
  • Pode ser igual a zero, mesmo que exista relação entre as variáveis.

Cuidados na Interpretação do Coeficiente r

A obtenção de um valor de r baixo pode dever-se a outros motivos:

  1. As variáveis estão relacionadas, mas não de uma forma linear;
  2. O intervalo de variação de uma ou ambas as variáveis não é suficientemente amplo.

A obtenção de um valor de r alto pode dever-se a outros motivos:

  1. A amostra é muito pequena;
  2. A amostra contém valores extremos.

Escala de Intensidade da Associação:

  • < 0,2: Associação muito fraca;
  • 0,2 a 0,4: Associação fraca;
  • 0,4 a 0,7: Associação moderada;
  • 0,7 a 0,9: Associação forte;
  • 0,9 a 1,0: Associação muito forte.

Regressão e Previsão

  • Uma vantagem importante da correlação consiste na possibilidade de fazer previsões: tal é feito a partir da análise de regressão;
  • O objetivo da regressão linear simples é sintetizar a associação entre as variáveis, produzindo uma linha que se aproxime dos dados recolhidos. Esta linha é designada como reta de regressão;
  • Uma vez conhecida esta reta, poderemos fazer previsões sobre valores prováveis da variável dependente, face a determinados valores da variável independente.

Coeficiente r²: Avalia a capacidade explicativa do modelo, representando a proporção da variação total da variável dependente em torno da sua média que é explicada pelas variáveis incluídas na regressão.

Análise Multivariada

  • Relação Espúria: Existe quando a relação entre duas variáveis aparece apenas porque uma terceira tem uma ação causal sobre as duas primeiras.
  • Variável Interveniente: Existe quando a relação entre duas variáveis é mediada pela atuação de uma terceira variável.
  • Relação Moderada: Quando a relação entre as duas variáveis se aplica a algumas categorias da amostra, mas não a outras.
  • Causalidade Múltipla: Quando várias variáveis têm influência sobre a variável em estudo.

Limitações da utilização das tabelas de contingência:

  • As análises com mais que três variáveis requerem grandes amostras, especialmente quando as variáveis têm muitas categorias.
  • Existe a possibilidade de encontrar frequências muito pequenas nalgumas células, ou mesmo células vazias, quando se trabalha com amostras pequenas.

O coeficiente de correlação parcial permite verificar:

  • Se a relação é espúria;
  • Se existem variáveis intervenientes;
  • Se estamos na presença de causalidade múltipla.

Números Índices

Objetivos: Simplificar a análise, tornando mais clara a variação dos valores de uma determinada variável no tempo, ou em diferentes situações/espaços.

Tipos de índices: Índices simples, índices compostos e índices sintéticos ou compósitos.

Análise Cluster

  • Procedimento multivariado utilizado na identificação de grupos homogêneos de casos ou de variáveis;
  • Procura classificar um conjunto de objetos em grupos ou categorias usando os valores observados das variáveis, sem que seja necessário definir critérios que classificam os dados que integram determinado grupo.

Entradas relacionadas: