Guia de Revisão: Data Mining e Sistemas RBC
Classificado em Computação
Escrito em em
português com um tamanho de 7,09 KB
Revisão de Data Mining (Mineração de Dados)
-
Defina o conceito de mineração de dados.
Processo realizado através de estratégias automatizadas que têm por objetivo a descoberta de conhecimento valioso em grandes bases de dados. A mineração de dados baseia-se na utilização de algoritmos capazes de vasculhar grandes bases de dados de modo eficiente e revelar padrões interessantes, escondidos dentro da "montanha de dados".
-
Com relação ao estudo realizado pela empresa Walmart, quais as considerações que foram levadas para afirmar que a descoberta da nova regra era válida?
O conhecimento descoberto apresentava as seguintes propriedades: novidade, associação inesperada e ser interpretável.
-
Explique como surgiu a mineração de dados.
A partir dos anos 1990, percebeu-se que os dados estavam sendo subutilizados e identificou-se a oportunidade de explorá-los de forma estratégica. Diante das limitações da manipulação de dados por meio de SQL e planilhas, surgiu a DM (Data Mining).
-
Explique detalhadamente quais tarefas podem ser realizadas na mineração de dados.
-
Tarefa 1: Descoberta de Associações
- Objetivo: Descobrir combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados.
- Exemplo (Mineração do BD de um supermercado): "50% das compras que contêm fraldas também contêm cerveja. 15% de todas as compras contêm os dois produtos."
- Representação (regra de associação): {fraldas} ⇒ {cerveja}
-
Tarefa 2: Descoberta de Padrões Sequenciais
- Objetivo: Descobrir sequências de eventos frequentes.
- Diferencial: Assemelha-se à mineração de associações, mas leva em conta a ordem ou a data de ocorrência dos eventos.
- Exemplo (Mineração do BD de uma loja de suprimentos eletrônicos): "50% dos consumidores que adquirem um netbook compram um hard disk externo de 2 a 4 meses após a aquisição do netbook."
-
Tarefa 3: Classificação
- Objetivo: A partir de um banco de dados contendo objetos pré-classificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (cuja classe é desconhecida) em função de suas características.
- Modelo: O modelo criado é chamado de modelo classificador (ex: carro nacional ou carro importado).
-
Tarefa 4: Determinação de Agrupamentos (Clustering)
- Objetivo: Dividir automaticamente um conjunto de objetos em grupos (clusters) de acordo com algum tipo de relacionamento de similaridade existente.
- Exemplo: Se você tivesse que dividir em dois grupos de acordo com a similaridade, como faria para criar os grupos da família Simpsons?
-
Tarefa 1: Descoberta de Associações
-
Descreva a diferença entre técnica de mineração de dados e tarefa de mineração de dados.
A tarefa é o que deve ser feito, enquanto a técnica é o como fazer.
-
Descreva como utilizar a ferramenta WEKA.
[Conteúdo pendente de preenchimento / Sem resposta no documento original]
Revisão de RBC (Raciocínio Baseado em Casos)
-
Defina a gestão do conhecimento no contexto do RBC.
É a técnica utilizada para complementar as limitações de outros mecanismos. Mecanismos de lógica exata (por exemplo, bancos de dados ou sistemas baseados em regras) falham; sistemas de recuperação de informação também falham se não há documentos ou se as perguntas não são bem descritas.
-
Explique o que é o RBC e como ele resolve problemas.
A ideia do RBC é resolver um novo problema relembrando uma situação anterior similar e, então, reutilizando a informação e o conhecimento daquela situação. Para resolver problemas, o sistema realiza:
- Recuperação: Recuperar experiências similares a partir de situações na memória (fazendo analogias);
- Reutilização: Reutilizar a experiência no contexto da situação nova (reutilização completa ou parcial, ou adaptação de acordo com as diferenças).
-
Explique de forma resumida como construir um RBC.
- Aquisição e Representação: Selecionar os melhores casos dentro de um conjunto de casos disponíveis.
- Indexação: Selecionar características da descrição dos casos que permitam a recuperação eficiente dos casos relevantes ao problema.
- Recuperação: Utilizar mecanismos para medir o grau de similaridade entre casos e problemas, realizando a seleção dos "casos candidatos".
-
Descreva como é a etapa de recuperação de casos em um RBC.
Ela tem como propósito recuperar, de uma memória de casos, o caso mais adequado a uma nova situação e sugerir a solução desse caso (ou uma adaptação dela) como solução para o novo caso.
-
Cite alguns problemas que ocorrem na etapa de aquisição dos casos.
- Casos não disponíveis em fontes externas;
- Casos semidisponíveis em fontes externas:
- Registros incompletos, sem todos os dados;
- Registro de soluções parciais ou inexistentes.
- Casos disponíveis, mas com erros:
- Registros corretos, mas com soluções diferentes ou conflitantes;
- Necessidade de trabalho conjunto com especialistas para tornar a base íntegra.
- Casos disponíveis e corretos:
- Situação ideal, porém raramente encontrada com volume adequado de casos (em geral, bases pequenas).
-
Cite algumas vantagens na utilização de sistemas de RBC.
- Um sistema RBC também aprende com seus fracassos;
- Um sistema que usa o modelo RBC pode desenvolver uma grande capacidade de aprendizado, porque seu processo de aprendizagem é muito simples:
- O sistema aprende quando permite que problemas recém-resolvidos sejam acrescentados à sua memória de casos, de forma que possam ser utilizados para resolver novos problemas;
- Esse é um aprendizado que ocorre a partir dos sucessos do sistema ao determinar a solução de um problema.
-
Cite dois tipos de sistemas de RBC.
- Sistema RBC Interpretativo: no qual se usam casos passados para justificar ou criticar a solução de uma nova situação;
- Sistema RBC Solucionador de Problemas: no qual se usam casos passados para propor uma solução inicial que pode ser adaptada para satisfazer as necessidades de um novo problema.