Avaliação de Ciência de Dados e Machine Learning

Classificado em Formação e Orientação para o Emprego

Escrito em 13 de Junho de 2026 em português com um tamanho de 21,42 KB

Simulado de Ciência de Dados e Machine Learning

QUESTÃO 1 – As plataformas de repositórios de dados, Kaggle e UCI Machine Learning Repository, são cruciais para o desenvolvimento e a pesquisa em ciência de dados e aprendizado de máquina, oferecendo vastos recursos de dados para a comunidade global. O Kaggle é reconhecido por suas competições de ciência de dados e por proporcionar um ambiente onde os usuários podem experimentar e resolver problemas complexos. Por outro lado, o UCI Machine Learning Repository é uma plataforma estabelecida que foca em suportar a pesquisa acadêmica, oferecendo datasets amplamente utilizados em educação e pesquisas científicas. Considerando essas informações, assinale a alternativa INCORRETA:

a) Tanto o Kaggle quanto o UCI Machine Learning Repository disponibilizam uma variedade de datasets que são essenciais para o aprendizado e pesquisa em ciência de dados.
b) O Kaggle é uma plataforma interativa onde os usuários podem participar de competições para solucionar problemas reais e compartilhar suas soluções com a comunidade.
c) O UCI Machine Learning Repository oferece uma coleção exclusiva de datasets voltados para competições, semelhante ao Kaggle.
d) Ambos os repositórios proporcionam recursos que ajudam na educação e no desenvolvimento de habilidades práticas em ciência de dados.

QUESTÃO 2 – No campo da ciência de dados, as bibliotecas de visualização de dados desempenham um papel crucial na análise e interpretação de informações complexas. Matplotlib e Seaborn são duas das bibliotecas mais populares usadas para esse propósito. Matplotlib é amplamente conhecida por sua flexibilidade e capacidade de criar gráficos altamente personalizados, enquanto Seaborn é apreciado por sua interface simplificada que permite a geração rápida de gráficos estatísticos complexos com código reduzido. Com base nessas informações, qual das seguintes afirmações é INCORRETA?

a) Ambas, Matplotlib e Seaborn, são ferramentas importantes para qualquer cientista de dados, facilitando a visualização de dados e a identificação de padrões.
b) Matplotlib oferece um controle detalhado sobre os elementos gráficos, enquanto Seaborn trabalha com uma abordagem mais abstrata, ideal para visualizações estatísticas rápidas.
c) Seaborn não é capaz de produzir visualizações sem a base do Matplotlib, pois depende exclusivamente dessa biblioteca para todas as suas funcionalidades.
d) Seaborn ajuda a simplificar a criação de gráficos estatísticos, permitindo que os usuários produzam visualizações complexas com menos esforço e mais eficiência.
e) A capacidade de personalização do Matplotlib, inspirada no MATLAB, permite aos usuários criar tanto gráficos estáticos quanto interativos, adaptando-se a diversas necessidades analíticas.

QUESTÃO 3 – No contexto do processamento de dados usando o Pandas, uma biblioteca essencial para análise de dados em Python, entender a estrutura do DataFrame é fundamental. O Pandas fornece várias funções para explorar e entender os dados contidos em um DataFrame. Uma das informações mais básicas, mas importantes, é a estrutura de índices do DataFrame, que inclui as informações sobre as linhas. Com base nisso, qual das seguintes opções é o comando correto para verificar a estrutura de índices em um DataFrame chamado df?

b) df.index()

QUESTÃO 4 – Baseando-se no mapa de calor apresentado, que mostra a correlação entre diferentes variáveis em um dataset de diagnóstico médico, responda à seguinte pergunta: Qual das variáveis abaixo possui a maior correlação direta com a variável "perímetro", e o que isso pode indicar sobre a natureza das medições envolvidas?

d) area

QUESTÃO 5 – Baseando-se na imagem que ilustra o processo de transformação de uma variável categórica "sex" em variáveis dummy através da técnica de one-hot encoding no contexto de preparação de dados para modelos de aprendizado de máquina, responda à seguinte pergunta: O que o processo de one-hot encoding na coluna "sex" da tabela original permite alcançar em modelos de aprendizado de máquina?

c) Permite a representação numérica de dados categóricos para facilitar o processamento computacional.

Afirmação 1 - O conjunto de teste deve ser mantido separado durante o treinamento e utilizado apenas na avaliação final do modelo para verificar seu desempenho geral.
Afirmação 2 - O conjunto de validação é empregado para o ajuste fino dos hiperparâmetros do modelo durante a fase de treinamento, garantindo que as mudanças sejam efetivas antes da avaliação final.
Afirmação 3 - O conjunto de teste deve ser usado frequentemente durante o processo de desenvolvimento do modelo para orientar decisões de ajustes e melhorias.

Qual das opções a seguir apresenta a avaliação correta das afirmações?

c) As afirmações 1 e 2 são verdadeiras.

QUESTÃO 1 – As plataformas de repositórios de dados, Kaggle e UCI Machine Learning Repository, são cruciais para o desenvolvimento e a pesquisa em ciência de dados e aprendizado de máquina, oferecendo vastos recursos de dados para a comunidade global. O Kaggle é reconhecido por suas competições de ciência de dados e por proporcionar um ambiente onde os usuários podem experimentar e resolver problemas complexos. Por outro lado, o UCI Machine Learning Repository é uma plataforma estabelecida que foca em suportar a pesquisa acadêmica, oferecendo datasets amplamente utilizados em educação e pesquisas científicas. Considerando essas informações, assinale a alternativa INCORRETA: a) Tanto o Kaggle quanto o UCI Machine Learning Repository disponibilizam uma variedade de datasets que são essenciais para o aprendizado e pesquisa em ciência de dados. b) O Kaggle é uma plataforma interativa onde os usuários podem participar de competições para solucionar problemas reais e compartilhar suas soluções com a comunidade. c) O UCI Machine Learning Repository oferece uma coleção exclusiva de datasets voltados para competições, semelhante ao Kaggle. d) Ambos os repositórios proporcionam recursos que ajudam na educação e no desenvolvimento de habilidades práticas em ciência de dados.

QUESTÃO 2 – No campo da ciência de dados, as bibliotecas de visualização de dados desempenham um papel crucial na análise e interpretação de informações complexas. Matplotlib e Seaborn são duas das bibliotecas mais populares usadas para esse propósito. Matplotlib é amplamente conhecida por sua flexibilidade e capacidade de criar gráficos altamente personalizados, enquanto Seaborn é apreciado por sua interface simplificada que permite a geração rápida de gráficos estatísticos complexos com código reduzido. Com base nessas informações, qual das seguintes afirmações é INCORRETA? a) Ambas, Matplotlib e Seaborn, são ferramentas importantes para qualquer cientista de dados, facilitando a visualização de dados e a identificação de padrões. b) Matplotlib oferece um controle detalhado sobre os elementos gráficos, enquanto Seaborn trabalha com uma abordagem mais abstrata, ideal para visualizações estatísticas rápidas. c) Seaborn não é capaz de produzir visualizações sem a base do Matplotlib, pois depende exclusivamente dessa biblioteca para todas as suas funcionalidades. d) Seaborn ajuda a simplificar a criação de gráficos estatísticos, permitindo que os usuários produzam visualizações complexas com menos esforço e mais eficiência. e) A capacidade de personalização do Matplotlib, inspirada no MATLAB, permite aos usuários criar tanto gráficos estáticos quanto interativos, adaptando-se a diversas necessidades analíticas.

QUESTÃO 3 – No contexto do processamento de dados usando o pandas, uma biblioteca essencial para análise de dados em Python, entender a estrutura do DataFrame é fundamental. O pandas fornece várias funções para explorar e entender os dados contidos em um DataFrame. Uma das informações mais básicas, mas importantes, é a estrutura de índices do DataFrame, que inclui as informações sobre as linhas. Com base nisso, qual das seguintes opções é o comando correto para verificar a estrutura de índices em um DataFrame chamado df? b) df.index()

QUESTÃO 4 – Baseando-se no mapa de calor apresentado, que mostra a correlação entre diferentes variáveis em um dataset de diagnóstico médico, responda à seguinte pergunta: Qual das variáveis abaixo possui a maior correlação direta com a variável "perímetro", e o que isso pode indicar sobre a natureza das medições envolvidas? d) area

QUESTÃO 5 – Baseando-se na imagem que ilustra o processo de transformação de uma variável categórica "sex" em variáveis dummy através da técnica de one-hot encoding no contexto de preparação de dados para modelos de aprendizado de máquina, responda à seguinte pergunta: O que o processo de one-hot encoding na coluna "sex" da tabela original permite alcançar em modelos de aprendizado de máquina? c) Permite a representação numérica de dados categóricos para facilitar o processamento computacional.

QUESTÃO 6 – Baseando-se nos princípios fundamentais de divisão de conjuntos de dados em treino, validação e teste para o desenvolvimento de modelos de aprendizado de máquina, avalie as seguintes afirmações: Afirmação 1 - O conjunto de teste deve ser mantido separado durante o treinamento e utilizado apenas na avaliação final do modelo para verificar seu desempenho geral. Afirmação 2 - O conjunto de validação é empregado para o ajuste fino dos hiperparâmetros do modelo durante a fase de treinamento, garantindo que as mudanças sejam efetivas antes da avaliação final. Afirmação 3 - O conjunto de teste deve ser usado frequentemente durante o processo de desenvolvimento do modelo para orientar decisões de ajustes e melhorias. Qual das opções a seguir apresenta a avaliação correta das afirmações? c) As afirmações 1 e 2 são verdadeiras.

Entradas relacionadas:

Etiquetas: