Conceitos Essenciais de Data Warehouse e Data Mining

Classificado em Computação

Escrito em em português com um tamanho de 5,69 KB

Trabalho em Grupo: Pesquisa sobre Algoritmos Genéticos

Abordamos o tema algoritmos genéticos, que basicamente são métodos generalizados de busca e otimização que simulam os processos naturais e os aplicam à solução de problemas reais. Discorremos sobre a sua diferenciação dos métodos tradicionais e também dos operadores genéticos (seleção, mutação e cruzamento), além de exemplificar a composição de um algoritmo genético.

O que Caracteriza o Esquema Constelação?

Consiste num conjunto de esquemas em estrela com tabelas fato ligadas hierarquicamente.

Objetivos do Data Mining e Sua Utilização

O objetivo principal é descobrir padrões em meio a muitos dados. O objetivo exploratório é utilizado para descobrir novos conhecimentos, o confirmatório para comprovar certa hipótese e o explanatório para analisar o conhecimento obtido.

Característica de Dimensões Degeneradas

Dimensões degeneradas não são propriamente dimensões e são usadas quando, por uma questão de granularidade, não é possível obter uma solução mais tradicional.

O que é Dimensão Sucata?

A dimensão sucata é uma estrutura para armazenar atributos desprezados quando o modelo dimensional foi criado.

Método de Classificação: Árvore de Decisão

O método de classificação que utiliza uma estrutura semelhante a um fluxograma chama-se Árvore de Decisão.

O que é Clusterização?

É a classificação não supervisionada de dados, formando agrupamentos ou clusters. Ela representa uma das principais etapas de processos de análise de dados.

Definição de Dimensões Degeneradas

São dimensões vazias, portanto, sem tabelas.

O que Caracteriza uma Árvore de Decisão?

Utiliza uma estratégia de "dividir para conquistar". Um problema mais complexo é decomposto em subproblemas mais simples. A estratégia também é aplicada a cada subproblema.

O que Caracteriza o Esquema Snowflake?

Os modelos Snowflake acrescentam graus de normalização às tabelas de dimensões do modelo estrela, com isso reduzem as redundâncias, promovendo agilidade na manutenção.

Tipos de Operadores Genéticos (AGs)

Os tipos de operadores genéticos utilizados em AGs são:

  • Seleção
  • Mutação
  • Cruzamento

Tipos de Regras em Indução de Regras

Dois tipos de regras utilizadas em indução de regras são:

  • Árvore de Decisão
  • Floresta de Predição (com várias árvores de decisões parciais)

Data Warehouse vs. Data Mining

Comparativo entre Data Warehouse (DW) e Data Mining (DM):

  • DM: Extração inteligente de dados.
  • DW: Repositório centralizado de dados.
  • DM não é uma evolução do DW.
  • DM não depende do DW, mas obtém melhores resultados quando aplicado em conjunto.

Relação entre Tabelas Fato e Tabelas Dimensão

As tabelas fato ficam rodeadas por tabelas auxiliares, que se chamam tabelas dimensão. A tabela fato é um conjunto de dados de todas as tabelas dimensão. Por isso, a tabela fato tem como principal característica a presença de dados altamente redundantes, para obter um melhor desempenho.

O que são Regras de Associação?

A compra de um produto impulsionada pela compra de outro produto representa uma regra de associação, que é uma metodologia muito útil para descobrir relacionamentos interessantes em conjuntos de dados.

Explicação de Data Mining

Data Mining é a mineração de dados. Ele agrega e organiza os dados, encontra padrões, associações, mudanças e anomalias relevantes. O objetivo é oferecer estratégias automatizadas para análise de grandes bases de dados de empresas.

Explicação de OLAP

OLAP (Online Analytical Processing) é uma tecnologia usada para organizar grandes bancos de dados comerciais e oferecer suporte à inteligência de negócios (Business Intelligence).

Data Warehouse e Data Marts Explicados

  • Data Warehouse (DW): Repositório construído especificamente para armazenar informações da organização num formato válido e consistente, permitindo aos utilizadores realizarem análise de dados de forma seletiva.
  • Data Mart (DM): São repositórios menores que os DWs e armazenam um subconjunto específico de dados da organização.

Tipos de OLAP

Três tipos de OLAP:

  • ROLAP (Relational OLAP): Derivação do OLAP voltada para bancos de dados relacionais. As consultas são executadas no servidor.
  • HOLAP (Hybrid OLAP): Derivação híbrida, baseada na escalabilidade do ROLAP e desempenho do MOLAP.
  • DOLAP (Desktop OLAP): A característica é que a consulta é realizada no banco e o cubo de informações é levado para o computador do usuário, agilizando as consultas e tirando a sobrecarga do servidor.

O que é Data Surfing em um Data Warehouse?

Data Surfing é a execução da mesma análise em outro conjunto de dados.

Dimensão Degenerada em Data Warehouse

É a dimensão derivada da tabela fato.

Alternativa de Implantação de Data Warehouse (4-Tier)

Refere-se à mudança de nível na análise, podendo ser Drill-up (aumentando o nível de agregação) ou Drill-down (diminuindo o nível de agregação).

Entradas relacionadas: