Defina o que é uma aplicação concorrente e dê um exemplo de sua utilização.
Classificado em Computação
Escrito em em português com um tamanho de 8,99 KB.
Defina árvores de decisão e seu funcionamento.
É a representação de uma tabela de decisão sob forma de árvore. Tem como funcionamento uma entrada de conjunto de atributos e a Sáída uma decisão ou previsão de Sáída dadá a entrada
Sobre árvores de decisão, descreva os seguintes termos:
Nó: teste de um valor de uma propriedade.
Ramo: resultados possíveis do teste.
Folha: valor a ser retornado se aquela folha for alcançada.
Exemplos positivos: são aqueles que levam a uma resposta positiva.
Exemplos negativos: são aqueles que levam a uma resposta negativa.
Princípió de Ockham: utilizar-se apenas as premissas que tragam resultados e eliminar as que não fazem diferença.
Quais são os 4 passos que devem ser seguidos por um algoritmo de geração de árvores de decisão a partir de exemplos. Explique cada passo.
–(1) Enquanto existirem exemplos positivos e negativos, deve-se escolher o melhor atributo pára dividi-los.
–(2) Se todos os exemplos restantes forem positivos (ou todos negativos), então podemos responder Sim ou Não.
–(3) Se não existirem exemplos restantes, retorna um valor padrão calculado a partir da classificação da maioria dos atributos do nó pai.
–(4) Se não existirem atributo restantes, mas ainda existirem exemplos positivos e negativos temos um problema.
Defina Entropia.
Impureza de uma coleção arbitrária de exemplos
Como medir o desempenho de um algoritmo de aprendizado? Descreva o processo de avaliação.
–(1) Divide-se o conjunto total de exemplos conhecidos em dois conjuntos:
•Conjunto de Treinamento.
•Conjunto de Teste.
–(2) Gera-se uma hipótese h (árvore de decisão) com base no Conjunto de Treinamento.
–(3) Pára cada exemplo do Conjunto de Teste, classifica-se o exemplo utilizando a árvore de decisão criada a partir do conjunto de treinamento.
–(4) Verifica-se a quantidade de exemplos de teste classificados corretamente e calcula-se a porcentagem de acertos.
–(5) Escolhe-se aleatoriamente um novo conjunto de exemplos de treinamento (normalmente com um número maior de exemplos) e repete-se novamente o processo.
O que é o KNN? Descreva os 3 passos que são realizados pelo algoritmo.
–(1) Calcular a distância entre o exemplo desconhecido e o outros exemplos do conjunto de treinamento.
–(2) Identificar os K vizinhos mais próximos.
–(3) Utilizar o rótulo da classe dos vizinhos mais próximos pára determinar o rótulo de classe do exemplo desconhecido (votação majoritária).
Dê 2 exemplos de métricas que podem ser utilizadas pára medir distância.
Metros, centimetros
Descreva os pontos positivos e negativos do KNN.
•Vantagens:
–Técnica simples e facilmente implementada.
–Bastante flexível.
–Em alguns casos apresenta ótimos resultados.
•Desvantagens:
–Classificar um exemplo desconhecido pode ser um processo computacionalmente complexo. Requer um cálculo de distancia pára cada exemplo de treinamento.
•Pode consumir muito tempo quando o conjunto de treinamento é muito grande.
–A précisão da classificação pode ser severamente degradada pela presença de ruído ou carácterísticas irrelevantes.
Descreva o SVN e defina vetores suporte.
Consiste em um método de aprendizado que tenta encontrar a maior margem pára separar diferentes classes de dados.
Os vetores de suporte são os exemplos de treinamento realmente importantes.
Por que outliers e exemplos rotulados erroneamente podem prejudicar o desempenho do SVN?
Pois podem atrapalhar a construção de um hiperplano ótimo
Como proceder em caso de problemas não linearmente separáveis?
mapear os dados pára um espaço de dimensão maior
Descreva os pontos positivos e negativos do SVN.
•Vantagens:
–Consegue lidar bem com grandes conjuntos de exemplos.
–Trata bem dados de alta dimensão.
–O processo de classificação é rápidó.
•Desvantagens:
–É necessário definir um bom Kernel.
–O tempo de treinamento pode ser bem longo dependendo do número de exemplos e dimensionalidade dos dados.
Defina aprendizado não supervisionado e sua diferença entre o aprendizado supervisionado. Em quais situações deve/pode ser aplicado?
Supervisionado (rotulado) – contem tanto entrada (atributo) quanto Sáída(classe)
Não supervisionado – não contem entrada.
Usa-se quando não se conhece o conteúdo da base de dados.
Qual é o maior ramo de aplicação do aprendizado não supervisionado?
Quando se deseja descobrir similaridades e diferença
Quais são as etapas do processo de aprendizado não supervisionado?
(1) Seleção de atributos
(2) Medida de proximidade
(3) Critério de agrupamento
(4) Algoritmo de agrupamento
(5) Verificação dos resultados
(6) Interpretação dos resultados
Quais os principais tipos de clusters?
Clusters compactos Clusters alongados Clusters esféricos e ellipsoidais
Defina medidas de dissimilaridade e medidas de similaridades. Apresente 2 exemplos de cada.
Dissimilaridade: Métrica Ip ponderada; Distancia de hamming;
Similaridade: Produto interno (inner); “Medida de Tanimoto;
Descreva o funcionamento dos algoritmos de clusterização sequenciais.
Pára um dado vetor de carácterísticas, designá–lo pára um cluster existente ou criar um novo cluster (depende da distância entre o vetor e os clusters já formados).
Descreva o funcionamento dos algoritmos de clusterização hierárquicos.
•Aglomerativos:
–Produzem uma sequência de agrupamentos com um número decrescente de clusters a cada passo.
–Os agrupamentos produzidos em cada passo resultam da fusão de dois clusters em um.
•Divisivos:
–Atuam na direção oposta, isto é, eles produzem uma sequência de agrupamentos com um número crescente de clusters a cada passo.
–Os agrupamentos produzidos em cada passo resultam da partição de um úNicó cluster em dois.
Descreva o kmeans e apresente seus pontos positivos e negativos.
•É a técnica mais simples de aprendizagem não supervisionada.
•Consiste em fixar k centróides (de maneira aleatória), um pára cada grupo (clusters).
•Associar cada indivíduo ao seu centróidé mais próximo.
•Recalcular os centróides com base nos indivíduos classificados.
Descreva o algoritmo do kmeans.
(1) Selecione k centróides iniciais.
(2) Forme k clusters associando cada exemplo ao seu centróidé mais próximo.
(3) Recalcule a posição dos centróides com base no centro de gravidade do cluster.
(4) Repita os passos 2 e 3 até que os centróides não sejam mais movimentados.