Guia Completo de Algoritmos de Machine Learning: KNN, SVM e K-means

Classificado em Computação

Escrito em em português com um tamanho de 2,68 KB.

O que é o KNN?

É um dos algoritmos de classificação clássicos e bem simples. Usado para classificar objetos com base em exemplos de treinamento que estão mais próximos no espaço de características.

Como o KNN funciona?

  1. Tenha um conjunto de exemplos de treinamento.
  2. Defina uma métrica para calcular a distância entre os exemplos de treinamento.
  3. Defina o valor de K (o número de vizinhos mais próximos que serão considerados pelo algoritmo).

Pontos Positivos e Negativos do KNN

Vantagens:

  • Técnica simples e facilmente implementada.
  • Bastante flexível.
  • Em alguns casos apresenta ótimos resultados.

Desvantagens:

  • Classificar um exemplo desconhecido pode ser um processo computacionalmente complexo. Requer um cálculo de distância para cada exemplo de treinamento.
  • Pode consumir muito tempo quando o conjunto de treinamento é muito grande.
  • A precisão da classificação pode ser severamente degradada pela presença de ruído ou características irrelevantes.

O que é o SVM?

Consiste em um método de aprendizado que tenta encontrar a maior margem para separar diferentes classes de dados. Pertence à classe de algoritmos de aprendizado supervisionado.

Vetores de Suporte

Os vetores de suporte são os exemplos de treinamento realmente importantes. Os outros exemplos podem ser ignorados.

Parâmetro C (Soft Margin) no SVM

Serve como variáveis de folga.

Lidando com Problemas Não Linearmente Separáveis no SVM

Mapear os dados para um espaço de dimensão maior.

Pontos Positivos e Negativos do SVM

Vantagens:

  • Consegue lidar bem com grandes conjuntos de exemplos.
  • Trata bem dados de alta dimensão.
  • O processo de classificação é rápido.

Desvantagens:

  • É necessário definir um bom Kernel.
  • O tempo de treinamento pode ser bem longo dependendo do número de exemplos e dimensionalidade dos dados.

Diferença entre KNN e K-means

KNN é um algoritmo de classificação, que é um subconjunto de aprendizagem supervisionada. K-means é um algoritmo de agrupamento, que é um subconjunto de aprendizagem não supervisionada.

O que é o K-means?

É a técnica mais simples de aprendizagem não supervisionada. Consiste em fixar k centróides (de maneira aleatória), um para cada grupo (clusters). Associar cada indivíduo ao seu centróide mais próximo.

Desvantagem do K-means

O principal problema do K-Means é a dependência de uma boa inicialização.

Entradas relacionadas: