Técnicas Fundamentais de Mineração de Dados

Classificado em Tecnologia

Escrito em em português com um tamanho de 2,51 KB

  • Previsão: Consiste em estimar o valor futuro de uma variável sujeita a mudanças aleatórias ao longo do tempo. Aplica-se rigorosamente a séries temporais, que são conjuntos de dados cujo domínio é o tempo.
  • Regressão: É uma generalização da classificação (quando o domínio de classes é contínuo) e da previsão. Dependendo da natureza das variáveis dependente e independentes, o modelo resultante pode ser de classificação ou previsão. O objetivo é encontrar um modelo matemático ou estatístico que relacione corretamente a variável dependente com as variáveis independentes. Geometricamente, a regressão busca encontrar uma função que passe o mais próximo possível (em média) dos pontos de dados que compõem a amostra.
  • Associação: Aborda questões como a "Análise da Cesta de Compras", a fim de identificar tendências de compra dos clientes. Pesquisa a possível relação entre dois ou mais acontecimentos aparentemente independentes.
  • Estimativa: A estimativa de parâmetros da população é feita a partir da amostra (matriz de dados X) disponível. Estes parâmetros representam informações que podem ser muito úteis, especialmente em pesquisa de mercado. Exemplo de parâmetro: nível de demanda por computadores na cidade de Mérida em 2010.
  • Agrupamento (Clustering): Consiste em dividir a amostra em dois ou mais grupos, buscando minimizar a variância dentro dos grupos e maximizar a variância entre os grupos. Isto significa que os indivíduos pertencentes a um mesmo grupo devem ser o mais semelhantes possível entre si. Geometricamente, isto significa que os indivíduos (pontos no espaço p-dimensional) dentro de um grupo devem estar o mais próximos possível. Por outro lado, indivíduos de grupos diferentes devem estar tão distantes quanto possível uns dos outros. Cada grupo torna-se uma classe. Estas tarefas não constroem modelos preditivos.
  • Classificação: Consiste no desenvolvimento de um modelo para atribuir uma classe a um indivíduo com base nos seus atributos (valores das variáveis). A variável dependente neste modelo é a classe do indivíduo, enquanto as variáveis independentes representam as suas características. Os parâmetros do modelo são aprendidos a partir da amostra utilizada. A amostra contém um conjunto de n indivíduos, cada um previamente rotulado com uma das C classes existentes.

Entradas relacionadas: