Guia de Ciência de Dados: Visualização e Modelagem

Classificado em Formação e Orientação para o Emprego

Escrito em 26 de Maio de 2026 em português com um tamanho de 10,2 KB

Visualização de Dados

Quando usar cada gráfico:

Dispersão: Correlação entre duas variáveis contínuas (ex: renda vs. horas trabalhadas).
Barras: Comparação de médias ou categorias.
Caixas (Boxplot): Comparação de dispersão e mediana entre grupos ou faixas.
Bolhas: Representação de três variáveis (x, y e tamanho), embora seja menos intuitivo.
Áreas: Evolução temporal de variáveis.

Resposta padrão: O gráfico de dispersão permite visualizar a correlação direta entre variáveis contínuas. O boxplot compara distribuições entre faixas etárias.

Tratamento de Dados Faltantes

Abordagens adequadas:

Imputar com média ou mediana (indicado para distribuições simétricas).
Manter valores ausentes se eles forem informativos para o modelo.
Eliminar registros se o conjunto de dados (dataset) for grande o suficiente.
Usar indutor (regressão ou classificação) para estimar os valores.

O que nunca fazer: Jamais ignore completamente os dados faltantes ou utilize valores aleatórios.

Resposta padrão: Substituir pela mediana ou média é adequado quando a distribuição é simétrica. A eliminação é viável em cenários com muitos dados. A imputação por indutor oferece maior precisão.

Análise Preditiva

Definição: Utiliza dados históricos combinados com Machine Learning (ML) para identificar padrões e prever comportamentos futuros. Aplica técnicas estatísticas para estimar tendências e apoiar decisões proativas.

O que NÃO é análise preditiva:

Prescrever ações específicas (isso caracteriza a análise prescritiva).
Clustering (agrupamento) sem previsão de eventos futuros.
Análise de dados qualitativos sem o suporte de dados quantitativos.

Resposta padrão: A análise preditiva baseia-se em dados históricos com ML para prever comportamentos futuros, utilizando técnicas estatísticas para identificar tendências e fundamentar decisões proativas.

k-NN e a Maldição da Dimensionalidade

Problema principal: A "maldição da dimensionalidade" faz com que as distâncias se tornem uniformes, dificultando a identificação de vizinhos relevantes. Além disso, a complexidade computacional aumenta drasticamente.

Solução: Realizar a redução de dimensionalidade antes de aplicar o algoritmo.

Atenção: O algoritmo k-NN não se torna mais preciso com o aumento da dimensionalidade.

Resposta padrão: O k-NN sofre com a maldição da dimensionalidade (distâncias uniformes) e alta complexidade computacional, o que dificulta a identificação de vizinhos relevantes. Requer redução prévia de atributos.

One-Hot Encoding

Limitação principal: Muitas categorias resultam em muitas variáveis, gerando uma explosão dimensional. Isso prejudica a escalabilidade e aumenta o risco de overfitting.

O que não ocorre: O One-hot encoding não mantém dimensões constantes, não é compacto e não é eficiente quando há muitas categorias.

Resposta padrão: O One-hot encoding com muitas categorias gera explosão dimensional (uma variável por categoria), causando problemas de escalabilidade e overfitting.

Análise de Agrupamentos (Clustering)

Aplicações em redes sociais:

Identificar grupos com interesses similares.
Personalizar anúncios e recomendações de conteúdo.
Estudar comportamentos de grupos específicos de usuários.
Avaliar o impacto de campanhas publicitárias.

Não serve para: Prever o comportamento individual futuro, prever crescimento orgânico ou classificar apenas amigos próximos.

Resposta padrão: Identifica usuários com interesses semelhantes para personalizar anúncios e recomendações, além de permitir o estudo de comportamentos de grupos específicos.

Análise de Componentes Principais (PCA)

Se 2 componentes explicam 90% da variância:

Descartar os componentes seguintes, pois possuem pouca contribuição.
A redução de dimensionalidade já é considerada suficiente.
A informação essencial do dataset é mantida.

O que nunca dizer: Que "todos os componentes são essenciais" ou que é necessário "manter todos para uma visualização completa".

Resposta padrão: Com 90% da variância explicada, os componentes seguintes podem ser descartados, pois contribuem pouco para a análise. A redução já é suficiente.

Seleção de Atributos: Filtro vs. Wrapper

Vantagens do método Filtro em relação ao Wrapper:

Mais rápido e com menor custo computacional.
Não executa o modelo para cada combinação de atributos.
Flexível: Funciona de forma independente de qualquer modelo de ML.

Desvantagem: Não avalia a interação detalhada entre os atributos.

Resposta padrão: Os filtros são mais rápidos e baratos, pois não executam o modelo para cada combinação de atributos, sendo flexíveis para qualquer algoritmo de Machine Learning.

Conceitos de Qualidade de Dados e Outliers

Dados Inconsistentes: Violam relações lógicas (ex: peso de 120kg para uma idade de 3 anos). Devem ser verificados com scripts de validação.

Dados Redundantes: Variáveis ou registros muito similares que não agregam informação nova. Devem ser removidos.

Dados com Ruído: Incluem outliers e erros aleatórios. Podem ser tratados com técnicas de suavização, agrupamento ou regressão.

Tipos de Outliers:

Global: Um ponto isolado do restante dos dados.
Coletivo: Um grupo de pontos que se desvia do padrão.
Contextual: O dado desvia apenas em um subgrupo ou contexto específico.

Métodos de Detecção:

IQR (Intervalo Interquartil): De Q1 - 1.5 × IQR até Q3 + 1.5 × IQR.
Z-Score: Quando o valor absoluto de Z é maior que 3 (regra dos 99,7%).
Isolation Forest: Algoritmo que isola pontos anômalos em estruturas de árvores.

Questão Discursiva: Transformação de Texto (NLP)

Pipeline para processamento de comentários em redes sociais:

1. Pré-processamento:

Remover pontuação, números e caracteres especiais.
Converter todo o texto para minúsculas.
Remover stop words (palavras comuns como "o", "a", "de").
Aplicar stemming ou lemmatization (reduzir palavras à sua raiz ou lema).

2. Vetorização (Texto para Números):

Bag of Words (BoW): Contagem simples de frequência das palavras.
TF-IDF: Atribui peso pela relevância (palavra frequente no documento, mas rara no corpus).
Word Embeddings: Representações vetoriais densas (ex: Word2Vec, GloVe).

3. Redução Dimensional (se necessário):

PCA: Reduz dimensões mantendo a variância.
TruncatedSVD: Ideal para matrizes esparsas comuns em texto.

4. Normalização:

Utilizar StandardScaler ou MinMaxScaler para algoritmos como k-means e k-NN.
Garantir que todas as features estejam na mesma escala.

5. Extração de Features Adicionais:

Análise de sentimento (polaridade positiva ou negativa).
Comprimento do texto e quantidade de emojis ou hashtags.

Justificativa técnica: Algoritmos como k-means, k-NN e PCA trabalham com distâncias euclidianas, portanto, exigem dados numéricos e normalizados para que as distâncias sejam consistentes.

Questão Discursiva: Matriz de Confusão

Análise do Modelo 1:

Acertos (Diagonal): 35 + 44 + 41 = 120 acertos.
Total de predições: 155.
Acurácia: 120/155 ≈ 77,4%.
Erros distribuídos entre as classes.

Análise do Modelo 2:

Acertos (Diagonal): 42 + 35 + 43 = 120 acertos.
Total de predições: 150.
Acurácia: 120/150 = 80%.
Melhor desempenho nas Classes A e C.

Análise do Modelo 3:

Acertos (Diagonal): 40 + 45 + 35 = 120 acertos.
Total de predições: 150.
Acurácia: 120/150 = 80%.
Melhor desempenho na Classe B, mas com confusão significativa entre B e C (15 erros).

RESPOSTA FINAL: Os Modelos 2 e 3 empatam na acurácia global (80%). No entanto, o Modelo 2 é preferível se houver necessidade de um melhor equilíbrio entre as classes. Caso a Classe B seja a mais crítica para o negócio, o Modelo 3 deve ser escolhido.

Justificativa completa: O cálculo da acurácia é dado pela soma da diagonal principal dividida pelo total. A escolha final deve considerar a distribuição dos erros e o contexto específico do problema.

Entradas relacionadas:

Etiquetas: