Análise de Componentes Principais (ACP) e Clustering
Classificado em Computação
Escrito em em
com um tamanho de 3,89 KB
Análise de Componentes Principais (ACP)
A ACP (técnica multivariada) consiste em estudar a estrutura de interdependência (análise de estrutura de variância e covariância das variáveis), buscando combinações lineares das próprias variáveis a fim de reduzir a dimensão do problema para explicar a maior parte da variação dos dados de interesse.
A ACP é uma técnica de visualização de dados ou de pré-processamento antes do uso de métodos de aprendizado supervisionado.
Cada uma das dimensões da ACP é uma combinação linear dos p componentes de um vetor aleatório X. A ACP procura combinações lineares que possuem maior variância.
Com a decomposição espectral, podemos obter vetores zi (componentes principais) de i=1,...,p. A segunda componente principal possui máxima variância dentre todas as combinações não correlacionadas com a primeira componente principal (z1).
A proporção da variância total de X é explicada pela j-ésima componente principal: λj / (Soma de i=1 até P de λi).
Como em geral a matriz (Σ) é desconhecida, utiliza-se a matriz S, de variância e covariâncias amostrais, para estimar as componentes principais.
Exemplo Prático
λ1=4147439; λ2=2539507 e λ3=21084; λ1+λ2+λ3=44034992.
z1 = componente 1 = porcentagem da variância total explicada = 4147439/44034992 = 94.18%.
| Componente | 1 | 2 | 3 |
|---|---|---|---|
| Ganho bruto | 0.886 | -0.464 | 0.005 |
| Ganho líquido | 0.645 | -0.557 | -0.523 |
| Patrimônio | 0.993 | 0.116 | -0.0004 |
phi1=(0.4251; 0.0277; 0.9047)^t; phi2=(-0.8997; -0.0965; -0.4257)^t e phi3=(0.0991; -0.9949; -0.0161)^t.
Análise dos Componentes
- Componente 1: Índice de desempenho global. O coeficiente de maior grandeza é o patrimônio.
- Componente 2: Representa a comparação entre o ganho bruto e o patrimônio.
- Componente 3: Representa apenas a variável ganho líquido.
Visualização
- Screeplot: "Gráfico de cotovelo".
- Biplot: "Gráfico de vetores"; apresenta os scores de cada estado e a direção de cada variável.
Nota: Os resultados da ACP dependem da padronização das variáveis (média 0 e desvio padrão 1).
Clustering
O Clustering tem a finalidade de encontrar subgrupos (clusters) das observações com base em suas características, particionando-as de modo que a variação intra-cluster seja a menor possível.
Os agrupamentos devem exibir elevada homogeneidade interna e heterogeneidade externa.
Clustering vs ACP
- ACP: Busca representação de baixa dimensão para explicar a variância.
- Clustering: Busca identificar subgrupos homogêneos.
Algoritmo K-means
- Alocação aleatória em K clusters e escolha de centróides.
- Comparação de cada observação com o centróide via distância euclidiana.
- Recálculo dos centróides.
- Repetição até a convergência.
Desvantagens: Computacionalmente difícil para grandes volumes de dados e exige a especificação prévia de K.
Agrupamento Hierárquico Aglomerativo
O algoritmo inicia com cada observação como um cluster e une os pares mais próximos sucessivamente até formar um único cluster, gerando um dendrograma.