Guia de Ciência de Dados: Visualização e Modelagem
Classificado em Formação e Orientação para o Emprego
Escrito em em
com um tamanho de 10,2 KB
Visualização de Dados
Quando usar cada gráfico:
- Dispersão: Correlação entre duas variáveis contínuas (ex: renda vs. horas trabalhadas).
- Barras: Comparação de médias ou categorias.
- Caixas (Boxplot): Comparação de dispersão e mediana entre grupos ou faixas.
- Bolhas: Representação de três variáveis (x, y e tamanho), embora seja menos intuitivo.
- Áreas: Evolução temporal de variáveis.
Resposta padrão: O gráfico de dispersão permite visualizar a correlação direta entre variáveis contínuas. O boxplot compara distribuições entre faixas etárias.
Tratamento de Dados Faltantes
Abordagens adequadas:
- Imputar com média ou mediana (indicado para distribuições simétricas).
- Manter valores ausentes se eles forem informativos para o modelo.
- Eliminar registros se o conjunto de dados (dataset) for grande o suficiente.
- Usar indutor (regressão ou classificação) para estimar os valores.
O que nunca fazer: Jamais ignore completamente os dados faltantes ou utilize valores aleatórios.
Resposta padrão: Substituir pela mediana ou média é adequado quando a distribuição é simétrica. A eliminação é viável em cenários com muitos dados. A imputação por indutor oferece maior precisão.
Análise Preditiva
Definição: Utiliza dados históricos combinados com Machine Learning (ML) para identificar padrões e prever comportamentos futuros. Aplica técnicas estatísticas para estimar tendências e apoiar decisões proativas.
O que NÃO é análise preditiva:
- Prescrever ações específicas (isso caracteriza a análise prescritiva).
- Clustering (agrupamento) sem previsão de eventos futuros.
- Análise de dados qualitativos sem o suporte de dados quantitativos.
Resposta padrão: A análise preditiva baseia-se em dados históricos com ML para prever comportamentos futuros, utilizando técnicas estatísticas para identificar tendências e fundamentar decisões proativas.
k-NN e a Maldição da Dimensionalidade
Problema principal: A "maldição da dimensionalidade" faz com que as distâncias se tornem uniformes, dificultando a identificação de vizinhos relevantes. Além disso, a complexidade computacional aumenta drasticamente.
Solução: Realizar a redução de dimensionalidade antes de aplicar o algoritmo.
Atenção: O algoritmo k-NN não se torna mais preciso com o aumento da dimensionalidade.
Resposta padrão: O k-NN sofre com a maldição da dimensionalidade (distâncias uniformes) e alta complexidade computacional, o que dificulta a identificação de vizinhos relevantes. Requer redução prévia de atributos.
One-Hot Encoding
Limitação principal: Muitas categorias resultam em muitas variáveis, gerando uma explosão dimensional. Isso prejudica a escalabilidade e aumenta o risco de overfitting.
O que não ocorre: O One-hot encoding não mantém dimensões constantes, não é compacto e não é eficiente quando há muitas categorias.
Resposta padrão: O One-hot encoding com muitas categorias gera explosão dimensional (uma variável por categoria), causando problemas de escalabilidade e overfitting.
Análise de Agrupamentos (Clustering)
Aplicações em redes sociais:
- Identificar grupos com interesses similares.
- Personalizar anúncios e recomendações de conteúdo.
- Estudar comportamentos de grupos específicos de usuários.
- Avaliar o impacto de campanhas publicitárias.
Não serve para: Prever o comportamento individual futuro, prever crescimento orgânico ou classificar apenas amigos próximos.
Resposta padrão: Identifica usuários com interesses semelhantes para personalizar anúncios e recomendações, além de permitir o estudo de comportamentos de grupos específicos.
Análise de Componentes Principais (PCA)
Se 2 componentes explicam 90% da variância:
- Descartar os componentes seguintes, pois possuem pouca contribuição.
- A redução de dimensionalidade já é considerada suficiente.
- A informação essencial do dataset é mantida.
O que nunca dizer: Que "todos os componentes são essenciais" ou que é necessário "manter todos para uma visualização completa".
Resposta padrão: Com 90% da variância explicada, os componentes seguintes podem ser descartados, pois contribuem pouco para a análise. A redução já é suficiente.
Seleção de Atributos: Filtro vs. Wrapper
Vantagens do método Filtro em relação ao Wrapper:
- Mais rápido e com menor custo computacional.
- Não executa o modelo para cada combinação de atributos.
- Flexível: Funciona de forma independente de qualquer modelo de ML.
Desvantagem: Não avalia a interação detalhada entre os atributos.
Resposta padrão: Os filtros são mais rápidos e baratos, pois não executam o modelo para cada combinação de atributos, sendo flexíveis para qualquer algoritmo de Machine Learning.
Conceitos de Qualidade de Dados e Outliers
Dados Inconsistentes: Violam relações lógicas (ex: peso de 120kg para uma idade de 3 anos). Devem ser verificados com scripts de validação.
Dados Redundantes: Variáveis ou registros muito similares que não agregam informação nova. Devem ser removidos.
Dados com Ruído: Incluem outliers e erros aleatórios. Podem ser tratados com técnicas de suavização, agrupamento ou regressão.
Tipos de Outliers:
- Global: Um ponto isolado do restante dos dados.
- Coletivo: Um grupo de pontos que se desvia do padrão.
- Contextual: O dado desvia apenas em um subgrupo ou contexto específico.
Métodos de Detecção:
- IQR (Intervalo Interquartil): De Q1 - 1.5 × IQR até Q3 + 1.5 × IQR.
- Z-Score: Quando o valor absoluto de Z é maior que 3 (regra dos 99,7%).
- Isolation Forest: Algoritmo que isola pontos anômalos em estruturas de árvores.
Questão Discursiva: Transformação de Texto (NLP)
Pipeline para processamento de comentários em redes sociais:
1. Pré-processamento:
- Remover pontuação, números e caracteres especiais.
- Converter todo o texto para minúsculas.
- Remover stop words (palavras comuns como "o", "a", "de").
- Aplicar stemming ou lemmatization (reduzir palavras à sua raiz ou lema).
2. Vetorização (Texto para Números):
- Bag of Words (BoW): Contagem simples de frequência das palavras.
- TF-IDF: Atribui peso pela relevância (palavra frequente no documento, mas rara no corpus).
- Word Embeddings: Representações vetoriais densas (ex: Word2Vec, GloVe).
3. Redução Dimensional (se necessário):
- PCA: Reduz dimensões mantendo a variância.
- TruncatedSVD: Ideal para matrizes esparsas comuns em texto.
4. Normalização:
- Utilizar StandardScaler ou MinMaxScaler para algoritmos como k-means e k-NN.
- Garantir que todas as features estejam na mesma escala.
5. Extração de Features Adicionais:
- Análise de sentimento (polaridade positiva ou negativa).
- Comprimento do texto e quantidade de emojis ou hashtags.
Justificativa técnica: Algoritmos como k-means, k-NN e PCA trabalham com distâncias euclidianas, portanto, exigem dados numéricos e normalizados para que as distâncias sejam consistentes.
Questão Discursiva: Matriz de Confusão
Análise do Modelo 1:
- Acertos (Diagonal): 35 + 44 + 41 = 120 acertos.
- Total de predições: 155.
- Acurácia: 120/155 ≈ 77,4%.
- Erros distribuídos entre as classes.
Análise do Modelo 2:
- Acertos (Diagonal): 42 + 35 + 43 = 120 acertos.
- Total de predições: 150.
- Acurácia: 120/150 = 80%.
- Melhor desempenho nas Classes A e C.
Análise do Modelo 3:
- Acertos (Diagonal): 40 + 45 + 35 = 120 acertos.
- Total de predições: 150.
- Acurácia: 120/150 = 80%.
- Melhor desempenho na Classe B, mas com confusão significativa entre B e C (15 erros).
RESPOSTA FINAL: Os Modelos 2 e 3 empatam na acurácia global (80%). No entanto, o Modelo 2 é preferível se houver necessidade de um melhor equilíbrio entre as classes. Caso a Classe B seja a mais crítica para o negócio, o Modelo 3 deve ser escolhido.
Justificativa completa: O cálculo da acurácia é dado pela soma da diagonal principal dividida pelo total. A escolha final deve considerar a distribuição dos erros e o contexto específico do problema.