Análise de Componentes Principais (ACP) e Clustering

Escrito em 16 de Maio de 2026 em português com um tamanho de 3,89 KB

Análise de Componentes Principais (ACP)

A ACP (técnica multivariada) consiste em estudar a estrutura de interdependência (análise de estrutura de variância e covariância das variáveis), buscando combinações lineares das próprias variáveis a fim de reduzir a dimensão do problema para explicar a maior parte da variação dos dados de interesse.

A ACP é uma técnica de visualização de dados ou de pré-processamento antes do uso de métodos de aprendizado supervisionado.

Cada uma das dimensões da ACP é uma combinação linear dos p componentes de um vetor aleatório X. A ACP procura combinações lineares que possuem maior variância.

Com a decomposição espectral, podemos obter vetores zi (componentes principais) de i=1,...,p. A segunda componente principal possui máxima variância dentre todas as combinações não correlacionadas com a primeira componente principal (z1).

A proporção da variância total de X é explicada pela j-ésima componente principal: λj / (Soma de i=1 até P de λi).

Como em geral a matriz (Σ) é desconhecida, utiliza-se a matriz S, de variância e covariâncias amostrais, para estimar as componentes principais.

Exemplo Prático

λ1=4147439; λ2=2539507 e λ3=21084; λ1+λ2+λ3=44034992.
z1 = componente 1 = porcentagem da variância total explicada = 4147439/44034992 = 94.18%.

Componente	1	2	3
Ganho bruto	0.886	-0.464	0.005
Ganho líquido	0.645	-0.557	-0.523
Patrimônio	0.993	0.116	-0.0004

phi1=(0.4251; 0.0277; 0.9047)^t; phi2=(-0.8997; -0.0965; -0.4257)^t e phi3=(0.0991; -0.9949; -0.0161)^t.

Análise dos Componentes

Componente 1: Índice de desempenho global. O coeficiente de maior grandeza é o patrimônio.
Componente 2: Representa a comparação entre o ganho bruto e o patrimônio.
Componente 3: Representa apenas a variável ganho líquido.

Visualização

Screeplot: "Gráfico de cotovelo".
Biplot: "Gráfico de vetores"; apresenta os scores de cada estado e a direção de cada variável.

Nota: Os resultados da ACP dependem da padronização das variáveis (média 0 e desvio padrão 1).

Clustering

O Clustering tem a finalidade de encontrar subgrupos (clusters) das observações com base em suas características, particionando-as de modo que a variação intra-cluster seja a menor possível.

Os agrupamentos devem exibir elevada homogeneidade interna e heterogeneidade externa.

Clustering vs ACP

ACP: Busca representação de baixa dimensão para explicar a variância.
Clustering: Busca identificar subgrupos homogêneos.

Algoritmo K-means

Alocação aleatória em K clusters e escolha de centróides.
Comparação de cada observação com o centróide via distância euclidiana.
Recálculo dos centróides.
Repetição até a convergência.

Desvantagens: Computacionalmente difícil para grandes volumes de dados e exige a especificação prévia de K.

Agrupamento Hierárquico Aglomerativo

O algoritmo inicia com cada observação como um cluster e une os pares mais próximos sucessivamente até formar um único cluster, gerando um dendrograma.

Entradas relacionadas:

Etiquetas: