Guia de Ciência de Dados: Visualização e Modelagem

Classificado em Formação e Orientação para o Emprego

Escrito em em com um tamanho de 10,2 KB

Visualização de Dados

Quando usar cada gráfico:

  • Dispersão: Correlação entre duas variáveis contínuas (ex: renda vs. horas trabalhadas).
  • Barras: Comparação de médias ou categorias.
  • Caixas (Boxplot): Comparação de dispersão e mediana entre grupos ou faixas.
  • Bolhas: Representação de três variáveis (x, y e tamanho), embora seja menos intuitivo.
  • Áreas: Evolução temporal de variáveis.

Resposta padrão: O gráfico de dispersão permite visualizar a correlação direta entre variáveis contínuas. O boxplot compara distribuições entre faixas etárias.


Tratamento de Dados Faltantes

Abordagens adequadas:

  1. Imputar com média ou mediana (indicado para distribuições simétricas).
  2. Manter valores ausentes se eles forem informativos para o modelo.
  3. Eliminar registros se o conjunto de dados (dataset) for grande o suficiente.
  4. Usar indutor (regressão ou classificação) para estimar os valores.

O que nunca fazer: Jamais ignore completamente os dados faltantes ou utilize valores aleatórios.

Resposta padrão: Substituir pela mediana ou média é adequado quando a distribuição é simétrica. A eliminação é viável em cenários com muitos dados. A imputação por indutor oferece maior precisão.


Análise Preditiva

Definição: Utiliza dados históricos combinados com Machine Learning (ML) para identificar padrões e prever comportamentos futuros. Aplica técnicas estatísticas para estimar tendências e apoiar decisões proativas.

O que NÃO é análise preditiva:

  • Prescrever ações específicas (isso caracteriza a análise prescritiva).
  • Clustering (agrupamento) sem previsão de eventos futuros.
  • Análise de dados qualitativos sem o suporte de dados quantitativos.

Resposta padrão: A análise preditiva baseia-se em dados históricos com ML para prever comportamentos futuros, utilizando técnicas estatísticas para identificar tendências e fundamentar decisões proativas.


k-NN e a Maldição da Dimensionalidade

Problema principal: A "maldição da dimensionalidade" faz com que as distâncias se tornem uniformes, dificultando a identificação de vizinhos relevantes. Além disso, a complexidade computacional aumenta drasticamente.

Solução: Realizar a redução de dimensionalidade antes de aplicar o algoritmo.

Atenção: O algoritmo k-NN não se torna mais preciso com o aumento da dimensionalidade.

Resposta padrão: O k-NN sofre com a maldição da dimensionalidade (distâncias uniformes) e alta complexidade computacional, o que dificulta a identificação de vizinhos relevantes. Requer redução prévia de atributos.


One-Hot Encoding

Limitação principal: Muitas categorias resultam em muitas variáveis, gerando uma explosão dimensional. Isso prejudica a escalabilidade e aumenta o risco de overfitting.

O que não ocorre: O One-hot encoding não mantém dimensões constantes, não é compacto e não é eficiente quando há muitas categorias.

Resposta padrão: O One-hot encoding com muitas categorias gera explosão dimensional (uma variável por categoria), causando problemas de escalabilidade e overfitting.


Análise de Agrupamentos (Clustering)

Aplicações em redes sociais:

  • Identificar grupos com interesses similares.
  • Personalizar anúncios e recomendações de conteúdo.
  • Estudar comportamentos de grupos específicos de usuários.
  • Avaliar o impacto de campanhas publicitárias.

Não serve para: Prever o comportamento individual futuro, prever crescimento orgânico ou classificar apenas amigos próximos.

Resposta padrão: Identifica usuários com interesses semelhantes para personalizar anúncios e recomendações, além de permitir o estudo de comportamentos de grupos específicos.


Análise de Componentes Principais (PCA)

Se 2 componentes explicam 90% da variância:

  • Descartar os componentes seguintes, pois possuem pouca contribuição.
  • A redução de dimensionalidade já é considerada suficiente.
  • A informação essencial do dataset é mantida.

O que nunca dizer: Que "todos os componentes são essenciais" ou que é necessário "manter todos para uma visualização completa".

Resposta padrão: Com 90% da variância explicada, os componentes seguintes podem ser descartados, pois contribuem pouco para a análise. A redução já é suficiente.


Seleção de Atributos: Filtro vs. Wrapper

Vantagens do método Filtro em relação ao Wrapper:

  • Mais rápido e com menor custo computacional.
  • Não executa o modelo para cada combinação de atributos.
  • Flexível: Funciona de forma independente de qualquer modelo de ML.

Desvantagem: Não avalia a interação detalhada entre os atributos.

Resposta padrão: Os filtros são mais rápidos e baratos, pois não executam o modelo para cada combinação de atributos, sendo flexíveis para qualquer algoritmo de Machine Learning.

Conceitos de Qualidade de Dados e Outliers

Dados Inconsistentes: Violam relações lógicas (ex: peso de 120kg para uma idade de 3 anos). Devem ser verificados com scripts de validação.

Dados Redundantes: Variáveis ou registros muito similares que não agregam informação nova. Devem ser removidos.

Dados com Ruído: Incluem outliers e erros aleatórios. Podem ser tratados com técnicas de suavização, agrupamento ou regressão.

Tipos de Outliers:

  • Global: Um ponto isolado do restante dos dados.
  • Coletivo: Um grupo de pontos que se desvia do padrão.
  • Contextual: O dado desvia apenas em um subgrupo ou contexto específico.

Métodos de Detecção:

  • IQR (Intervalo Interquartil): De Q1 - 1.5 × IQR até Q3 + 1.5 × IQR.
  • Z-Score: Quando o valor absoluto de Z é maior que 3 (regra dos 99,7%).
  • Isolation Forest: Algoritmo que isola pontos anômalos em estruturas de árvores.


Questão Discursiva: Transformação de Texto (NLP)

Pipeline para processamento de comentários em redes sociais:

1. Pré-processamento:

  • Remover pontuação, números e caracteres especiais.
  • Converter todo o texto para minúsculas.
  • Remover stop words (palavras comuns como "o", "a", "de").
  • Aplicar stemming ou lemmatization (reduzir palavras à sua raiz ou lema).

2. Vetorização (Texto para Números):

  • Bag of Words (BoW): Contagem simples de frequência das palavras.
  • TF-IDF: Atribui peso pela relevância (palavra frequente no documento, mas rara no corpus).
  • Word Embeddings: Representações vetoriais densas (ex: Word2Vec, GloVe).

3. Redução Dimensional (se necessário):

  • PCA: Reduz dimensões mantendo a variância.
  • TruncatedSVD: Ideal para matrizes esparsas comuns em texto.

4. Normalização:

  • Utilizar StandardScaler ou MinMaxScaler para algoritmos como k-means e k-NN.
  • Garantir que todas as features estejam na mesma escala.

5. Extração de Features Adicionais:

  • Análise de sentimento (polaridade positiva ou negativa).
  • Comprimento do texto e quantidade de emojis ou hashtags.

Justificativa técnica: Algoritmos como k-means, k-NN e PCA trabalham com distâncias euclidianas, portanto, exigem dados numéricos e normalizados para que as distâncias sejam consistentes.


Questão Discursiva: Matriz de Confusão

Análise do Modelo 1:

  • Acertos (Diagonal): 35 + 44 + 41 = 120 acertos.
  • Total de predições: 155.
  • Acurácia: 120/155 ≈ 77,4%.
  • Erros distribuídos entre as classes.

Análise do Modelo 2:

  • Acertos (Diagonal): 42 + 35 + 43 = 120 acertos.
  • Total de predições: 150.
  • Acurácia: 120/150 = 80%.
  • Melhor desempenho nas Classes A e C.

Análise do Modelo 3:

  • Acertos (Diagonal): 40 + 45 + 35 = 120 acertos.
  • Total de predições: 150.
  • Acurácia: 120/150 = 80%.
  • Melhor desempenho na Classe B, mas com confusão significativa entre B e C (15 erros).

RESPOSTA FINAL: Os Modelos 2 e 3 empatam na acurácia global (80%). No entanto, o Modelo 2 é preferível se houver necessidade de um melhor equilíbrio entre as classes. Caso a Classe B seja a mais crítica para o negócio, o Modelo 3 deve ser escolhido.

Justificativa completa: O cálculo da acurácia é dado pela soma da diagonal principal dividida pelo total. A escolha final deve considerar a distribuição dos erros e o contexto específico do problema.

Entradas relacionadas: