Conceitos Fundamentais de Ciência de Dados e ML
Classificado em Tecnologia
Escrito em em português com um tamanho de 2,5 KB.
O que é Ciência de Dados?
São processos e sistemas capazes de extrair conhecimento de diversas fontes de dados.
Mineração de Dados
É um processo para identificar padrões em grandes conjuntos de dados.
Aprendizado de Máquina
É uma linha de pesquisa que tem como objetivo criar programas capazes de aprender determinada tarefa utilizando um conjunto de dados ou medida de desempenho.
Aprendizado Supervisionado
Após o treinamento, espera-se que o modelo consiga reconhecer as características de um novo conjunto de dados e rotulá-lo da melhor forma possível.
Aprendizado Não Supervisionado
O dataset não está rotulado. Desta forma, o aprendizado é realizado com base nos padrões identificados e em alguma medida de avaliação que informa se a tarefa está sendo feita da melhor maneira possível. A tarefa mais comum é o agrupamento (clustering).
DataSet
É uma representação de dados residentes na memória que fornece um modelo de programação relacional consistente, independentemente da origem dos dados que contém. Um DataSet representa um conjunto completo de dados que inclui tabelas que contêm, ordenam e restringem os dados, bem como as relações entre elas.
Classificação
Na tarefa de classificação, procura-se por um algoritmo que melhor consiga definir a classe (rótulo) dos dados. Exemplos incluem:
- Classificar se um e-mail é spam ou não.
- Classificar a área responsável ou a urgência para atender a um chamado.
KNN (K-Vizinhos Mais Próximos)
O algoritmo KNN utiliza o rótulo dos vizinhos mais próximos para determinar o rótulo de uma nova amostra.
Naive Bayes
É um algoritmo que utiliza o Teorema de Bayes, que descreve a probabilidade de um evento com base nos dados já conhecidos. Pressupõe que todas as características das amostras são independentes umas das outras.
SVM (Máquina de Vetores de Suporte)
O algoritmo de Máquina de Vetores de Suporte (SVM) tem como objetivo criar hiperplanos que melhor separam as classes. Alguns dos problemas resolvidos usando SVMs (com implementações modificadas) incluem:
- Publicidade em display
- Reconhecimento de sítios de splice humano
- Detecção de gênero baseada em imagem
- Classificação de imagens em grande escala