Análise de Independência e Concordância em Tabelas de Contingência
Classificado em Matemática
Escrito em em português com um tamanho de 7,81 KB.
1) Tabela 1: Independência Condicional vs. Marginal
As variáveis X e Y são condicionalmente independentes dada Z, mas não são marginalmente independentes. Você concorda?
Solução:
Para definir a independência condicional, precisamos calcular:
RCxy(k) = (m11k * m22k) / (m12k * m21k)
onde k = 1, 2 (correspondente à variável Z).
Quando k = 1, RCxy(1) = (18 * 8) / (12 * 12) = 1
Quando k = 2, RCxy(2) = (2 * 32) / (8 * 8) = 1
Portanto, existe independência entre X e Y quando condicionado em Z (seja Z = 1 ou Z = 2).
Para definir independência marginal, calculamos:
RCxy = ((m11+) * (m22+)) / ((m21+) * (m12+)) = (20 * 40) / (20 * 20) = 2
Como RCxy ≠ 1, X e Y não são marginalmente independentes.
Concordo com a afirmação proposta no enunciado.
2) Modelos Encaixados em Tabelas I × J × K
Para uma tabela I × J × K com variáveis X, Y e Z, apresente dois modelos encaixados, ambos diferentes dos modelos nulo e saturado. Descreva os dois modelos e explique como testar se o modelo mais simples efetua um ajuste tão bom quanto o modelo mais complexo.
Solução:
O modelo mais simples escolhido é o modelo de independência mútua:
log(mijk) = λ + λix + λjy + λkz ou (X, Y, Z)
Este modelo é melhor ajustado para testar se não há correlação entre as variáveis dos dados.
O modelo mais complexo é aquele onde uma variável é conjuntamente independente do par formado pelas demais variáveis:
log(mijk) = λ + λix + λjy + λkz + λijxy ou (XY, Z) ou X ╨ Y ╨ Z
Este modelo é melhor ajustado para testar se há independência entre um par das variáveis (X, Y) e a variável isolada (Z).
O modelo simples escolhido é encaixado no modelo mais complexo.
A melhor forma de estudar o ajuste individual de cada modelo separadamente é pela estatística X2 ou G2, onde:
X2 = ΣiΣjΣk (nijk - m̂ijk)2 / (m̂ijk)
G2 = 2 * ΣiΣjΣk nijk * log(nijk / m̂ijk)
Se o modelo se ajusta bem aos dados, a distribuição assintótica de X2 e G2 é χ2g (n -> ∞), em que 'g' (graus de liberdade) depende do modelo ajustado. O ajuste do modelo é comparado ao ajuste do modelo saturado.
A melhor forma de comparar o ajuste entre os dois modelos (simples e mais complexo) pode ser obtida pela estatística G2.
3) Dados Pareados: Associação e Concordância
Dados pareados das variáveis X e Y foram coletados e as frequências observadas são apresentadas na Tabela 2. Afirma-se que a associação entre as variáveis é forte, mas a concordância não é forte. Você concorda?
Solução:
n = 15 + 15 + ... + 5 = 80. Dividindo toda a tabela por 80, obtém-se 1/4 para todas as marginais. Logo, X e Y têm distribuição marginal (homogeneidade marginal) com probabilidade (1/4, 1/4, 1/4, 1/4).
A frequência esperada é dada por m̂ij = N * πij = N * (πi+) * (π+j) = 80 * (1/4) * (1/4) = 5 (assumindo independência).
A estatística X2 = ΣiΣj (nijk - m̂ijk)2 / m̂ijk = ΣiΣj (nij - 5)2 / 5 = 120. Graus de liberdade = (I - 1) * (J - 1) = (4 - 1) * (4 - 1) = 9.
Como H0: as variáveis são independentes (não há associação) vs. H1: as variáveis não são independentes, rejeitamos H0 ao nível de significância de 5%, pois X2 é alto. Isso indica associação entre X e Y.
Valores baixos na diagonal principal indicam fraca concordância.
Pela medida kappa, temos:
Pc = (1/n2) * Σi(ni+ * n+i) = (1/802) * (20*20 + 20*20 + 20*20 + 20*20) = 1/4
Po = (1/n) * Σi(nii) = (1/80) * 20 = 1/4
k = (Po - Pc) / (1 - Pc) = (1/4 - 1/4) / (1 - 1/4) = 0. Isso indica fraca concordância.
Forte concordância implica associação, mas o contrário não é verdadeiro.
Conclusão: Concordo com o enunciado, pois há alta associação (teste X2), mas baixa concordância (medida kappa).
4) Estudo Transversal sobre AIDS
Dados da Tabela 3 foram coletados em um estudo transversal com n = 651 respondentes sobre o tema da AIDS. Duas das variáveis são as opiniões sobre campanhas com informações sobre práticas seguras (I) e sobre a obrigação de o governo pagar os custos de tratamentos dos pacientes com AIDS (C). Os respondentes foram classificados de acordo com o gênero (S).
(b) Modelos sem o termo CI
Afirma-se que modelos sem o termo CI levam a um ajuste ruim. Os resultados na Tabela 4 justificam esta afirmação?
Solução:
Considerando α = 5%, temos G2 e X2 ~ χ2(gl), onde o valor crítico de χ2(3) = 7.815 (e não 12.838 como no original - este é o valor para 6 graus de liberdade). É preciso o número correto de graus de liberdade para cada teste.
Para (SC, I): G2 = 19.9, X2 = 18.61 e valor-p = 0.0001. G2 e X2 são maiores que o valor crítico, e o valor-p é pequeno. Rejeitamos a hipótese nula de que o modelo se ajusta bem.
Para (SI, C): G2 = 17.2, X2 = 15.97 e valor-p = 0.0004 (assumindo 2 graus de liberdade - precisa ser verificado). G2 e X2 são maiores que o valor crítico, e o valor-p é pequeno. Rejeitamos a hipótese nula.
A afirmação é justificada, pois os modelos sem o termo CI apresentam valores altos de G2 e X2 e baixos valores-p, indicando um ajuste ruim.
(c) Descrição dos Modelos (SC, I) e (SC, SI, CI)
Solução:
Modelo (SC, I):
log(mijk) = λ + λiS + λjC + λkI + λijSC
Este modelo indica que a variável I é independente do par formado pelas variáveis S e C, mas S e C podem estar associadas.
Modelo (SC, SI, CI):
log(mijk) = λ + λiS + λjC + λkI + λijSC + λikSI + λjkCI
Este modelo permite associação entre todos os pares de variáveis. Não há independência condicional entre nenhum par de variáveis.
(d) Razão de Chances entre I e C
As frequências esperadas estimadas com o modelo (SC, SI, CI) encontram-se na Tabela 5. Apresente estimativas da razão de chances entre as variáveis I e C para cada gênero dos respondentes com uma casa decimal. Surpresa?
Solução:
Para o gênero masculino: RCIC(1) = (77.5 * 26.5) / (4.5 * 158.5) ≈ 2.9
Para o gênero feminino: RCIC(2) = (142.5 * 46.5) / (12.5 * 182.5) ≈ 2.9
Nenhuma surpresa, pois o modelo ajustado (SC, SI, CI) é um modelo de associação homogênea, o que significa que as razões de chances são iguais entre os grupos (gêneros).