Análise de Componentes Principais (ACP) e Clustering

Classificado em Computação

Escrito em em com um tamanho de 3,89 KB

Análise de Componentes Principais (ACP)

A ACP (técnica multivariada) consiste em estudar a estrutura de interdependência (análise de estrutura de variância e covariância das variáveis), buscando combinações lineares das próprias variáveis a fim de reduzir a dimensão do problema para explicar a maior parte da variação dos dados de interesse.

A ACP é uma técnica de visualização de dados ou de pré-processamento antes do uso de métodos de aprendizado supervisionado.

Cada uma das dimensões da ACP é uma combinação linear dos p componentes de um vetor aleatório X. A ACP procura combinações lineares que possuem maior variância.

Com a decomposição espectral, podemos obter vetores zi (componentes principais) de i=1,...,p. A segunda componente principal possui máxima variância dentre todas as combinações não correlacionadas com a primeira componente principal (z1).

A proporção da variância total de X é explicada pela j-ésima componente principal: λj / (Soma de i=1 até P de λi).

Como em geral a matriz (Σ) é desconhecida, utiliza-se a matriz S, de variância e covariâncias amostrais, para estimar as componentes principais.

Exemplo Prático

λ1=4147439; λ2=2539507 e λ3=21084; λ1+λ2+λ3=44034992.
z1 = componente 1 = porcentagem da variância total explicada = 4147439/44034992 = 94.18%.

Componente123
Ganho bruto0.886-0.4640.005
Ganho líquido0.645-0.557-0.523
Patrimônio0.9930.116-0.0004

phi1=(0.4251; 0.0277; 0.9047)^t; phi2=(-0.8997; -0.0965; -0.4257)^t e phi3=(0.0991; -0.9949; -0.0161)^t.

Análise dos Componentes

  • Componente 1: Índice de desempenho global. O coeficiente de maior grandeza é o patrimônio.
  • Componente 2: Representa a comparação entre o ganho bruto e o patrimônio.
  • Componente 3: Representa apenas a variável ganho líquido.

Visualização

  • Screeplot: "Gráfico de cotovelo".
  • Biplot: "Gráfico de vetores"; apresenta os scores de cada estado e a direção de cada variável.

Nota: Os resultados da ACP dependem da padronização das variáveis (média 0 e desvio padrão 1).

Clustering

O Clustering tem a finalidade de encontrar subgrupos (clusters) das observações com base em suas características, particionando-as de modo que a variação intra-cluster seja a menor possível.

Os agrupamentos devem exibir elevada homogeneidade interna e heterogeneidade externa.

Clustering vs ACP

  • ACP: Busca representação de baixa dimensão para explicar a variância.
  • Clustering: Busca identificar subgrupos homogêneos.

Algoritmo K-means

  1. Alocação aleatória em K clusters e escolha de centróides.
  2. Comparação de cada observação com o centróide via distância euclidiana.
  3. Recálculo dos centróides.
  4. Repetição até a convergência.

Desvantagens: Computacionalmente difícil para grandes volumes de dados e exige a especificação prévia de K.

Agrupamento Hierárquico Aglomerativo

O algoritmo inicia com cada observação como um cluster e une os pares mais próximos sucessivamente até formar um único cluster, gerando um dendrograma.

Entradas relacionadas: