Fundamentos de Data Mining, KDD e OLAP

Classificado em Tecnologia

Escrito em em português com um tamanho de 2,96 KB

Fundamentos de Data Mining e KDD

Data Mining (DM)

É o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bancos de dados.
  • Aplicações: Gerenciamento e análise de mercado, gerenciamento e análise de risco, geoprocessamento e outros.

Padrões

São unidades que se repetem, ou sequências de informações que dispõem de uma estrutura que se repete.

Medida de Interesse de Padrões

Um padrão é interessante se é facilmente entendido pelas pessoas, se é válido, se tem algum grau de certeza e se é potencialmente útil.

Medidas Objetivas

Baseadas em estatísticas ou outras medidas, como suporte e confiança.

Medidas Subjetivas

Baseadas na experiência ou crença dos usuários.

Knowledge Discovery in Databases (KDD)

Processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e finalmente compreensíveis a partir dos dados.

Tipos de Data Mining

Data Mining Preditivo

Consiste em analisar dados de forma a construir um ou mais modelos a serem utilizados para prever comportamentos de novos dados.
  • Técnicas: Classificação, regressão e séries temporais.

Data Mining Descritivo

Descreve o conjunto de dados de forma concisa e sumarizada, apresentando características gerais dos dados.
  • Técnicas: Associação, correlação, agrupamento e funções estatísticas.

Algoritmos e Conceitos Chave

Algoritmo Apriori

Pode reduzir significativamente o tamanho dos conjuntos de candidatos.

Clusters

É uma coleção de objetos que são similares uns aos outros (de acordo com algum critério de similaridade pré-fixado) e dissimilares a objetos pertencentes a outros clusters.

OLAP e Meta Dados

OLAP Dimensional - ROLAP

ROLAP (Relational Online Analytical Processing)

Trabalha diretamente com bancos de dados relacionais. Os dados e as tabelas de dimensões são armazenados como tabelas relacionais, e novas tabelas são criadas para receber as informações agregadas. Possibilita o reaproveitamento de resultados e implementações convencionais.

Operações OLAP

Drill Up

Sumariza os dados, subindo na hierarquia dentro de uma dimensão ou reduzindo uma dimensão.

Drill Down

Inverso do Drill Up, desce de um nível de sumarização mais elevado para outro mais baixo, ou introduz uma nova dimensão.

Slice

Executa uma seleção sobre uma dimensão do cubo.

Dice

Define um sub-cubo executando uma seleção sobre duas ou mais dimensões.

Pivot

Reorienta o cubo. Representação de informação em 3D em planos 2D.

Drill Across

Navega através de uma ou mais tabelas de fatos.

Meta Dados

São considerados os dados sobre dados.

Entradas relacionadas: