Conceitos Fundamentais e Métodos da Estatística
Classificado em Matemática
Escrito em em
português com um tamanho de 14,77 KB
Estatística
Parte da matemática aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados, bem como na utilização dos mesmos para tomada de decisão. A coleta, organização e descrição ficam a cargo da chamada Estatística Descritiva, enquanto que a análise e interpretação dos dados, associada a uma margem de incerteza, dizem respeito à Estatística Indutiva ou Inferencial, que se fundamenta na teoria e cálculo das probabilidades.
Método Estatístico
Entendemos por método como sendo um meio mais eficaz para atingir determinada meta ou objetivo pré-estabelecido. Dentre os métodos, podemos destacar o método científico, que por sua vez se divide em: método experimental e o método estatístico.
Método Experimental
É o método que consiste em manter constantes todas as variáveis, menos uma que justamente sofre variação, para se observar seus efeitos, caso existam. Ex.: Estudos de Química, Física, etc.
Método Estatístico
É aquele que, diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes, variando-as e registrando essas variações, procurando determinar no resultado final que influências cabem a cada uma delas. Ex.: Quais as causas que definem o preço de uma mercadoria quando sua oferta diminui.
Fases do Método Estatístico
- Definição do Problema: Consiste em saber exatamente aquilo que se pretende pesquisar. É o mesmo que definir corretamente o problema.
- Planejamento: Consiste em responder às questões do tipo: como levantar informações? Que dados deverão ser coletados? Que tipo de levantamento deverá ser utilizado (censitário ou por amostragem)? Qual é o cronograma de atividades? Quais os custos envolvidos? etc.
- Coleta dos Dados: É o registro sistemático de dados com um objetivo determinado.
Tipos de Dados Coletados
- Primários: São aqueles que são publicados pela própria pessoa ou organização que os coletou.
- Secundários: Quando são utilizados ou publicados por outra organização.
Formas de Coleta
- Coleta Direta: Quando é obtida diretamente da fonte. Pode ser:
- Contínua: Registro de nascimentos, óbitos, casamentos, etc.
- Periódica: Recenseamento demográfico, censo industrial, PNAD, etc.
- Ocasional: Registro de casos de dengue e outros.
- Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta direta, por analogia, por avaliação, indícios ou proporcionalização.
Fases do Método Estatístico (Continuação)
- Apuração dos Dados: Consiste em resumir os dados através de sua contagem e agrupamento. É a tabulação dos dados, propriamente dita.
- Apresentação dos Dados: Quanto à apresentação dos dados, existem duas formas que não são excludentes: a apresentação tabular e a apresentação gráfica.
- Análise e Interpretação dos Dados: Esta é a última fase do trabalho estatístico e é também a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Enquanto que a estatística indutiva cuida da interpretação dos dados e se fundamenta na teoria da probabilidade.
Definições Básicas de Estatística
- Fenômeno Estatístico: É qualquer evento que se pretende analisar, cujo estudo seja possível da aplicação do método estatístico.
- Fenômenos de Massa ou Coletivo: São aqueles que não podem ser definidos por uma simples observação.
- Fenômenos Individuais: São aqueles que compõem os fenômenos coletivos.
- Dado Estatístico: É um dado numérico e é considerado a matéria-prima sobre a qual iremos aplicar os métodos estatísticos.
- População: É o conjunto total de elementos portadores de, pelo menos, uma característica comum.
- Amostra: É uma parcela representativa da população que será examinada com o propósito de fazermos conclusões sobre essa população (inferência).
- Parâmetro: São valores singulares que existem na população e que servem para caracterizá-la.
- Estimativa: É um valor do parâmetro e é calculado a partir da amostra.
- Atributo: São qualidades apresentadas nos dados estatísticos.
Variáveis em Estatística
Variável: Uma variável é, convencionalmente, o conjunto de todos os resultados possíveis de um fenômeno.
- Variável Qualitativa: Quando seus valores são expressos por atributos (tipo, sexo, estado civil, cor da pele, etc.).
- Variável Quantitativa: Quando os dados são de caráter nitidamente quantitativos, e o conjunto de resultados possui uma estrutura numérica. Divide-se em:
- 1 - Variável Discreta ou Descontínua: Quando seus valores são expressos geralmente por valores inteiros não negativos e resultam geralmente de contagens.
- 2 - Variável Contínua: Esta variável resulta normalmente de uma mensuração e a escala numérica de seus valores corresponde ao conjunto $\mathbb{R}$, ou seja, podem assumir, teoricamente, qualquer valor em um intervalo.
Técnicas de Amostragem
Amostragem é o processo pelo qual se faz a seleção de amostras e tal processo deve garantir, tanto quanto possível, o acaso na escolha.
Métodos Probabilísticos
São métodos que exigem que cada elemento da população possua a mesma probabilidade de ser selecionado. Assim, se $N$ for o tamanho da população, a probabilidade de cada elemento ser sorteado será $1/N$. Portanto, trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências, e somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a população a partir da análise da amostra.
- Amostragem Aleatória Simples: É o processo mais elementar e mais frequentemente utilizado. É equivalente a um sorteio lotérico. Pode ser realizada numerando-se a população de 1 a $N$ e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, $x$ números dessa sequência, os quais corresponderão aos elementos pertencentes à amostra.
- Amostragem Proporcional Estratificada: Quando a população se divide em estratos (subpopulações), convém que o sorteio dos elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da amostra proporcional ao número de elementos desses estratos.
- Amostragem Aleatória Sistemática: Quando os elementos da população já se encontram ordenados, não há necessidade de construir o sistema de referência. São exemplos: os prontuários de hospitais, os prédios de uma rua, uma lista telefônica, etc. Nesses casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador.
- Amostragem por Conglomerados ou Agrupamentos: Algumas populações não permitem ou se tornam difíceis de identificar seus elementos. Não obstante, pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses grupos (conglomerados) pode ser escolhida e uma contagem completa deve ser feita para o conglomerado sorteado. Agrupamentos típicos são quarteirões, famílias, organizações, agências, edifícios, etc.
Métodos Não Probabilísticos
São amostragens em que há uma escolha deliberada dos elementos amostrais. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não-probabilísticas não garantem a representatividade da população.
- Amostragem Acidental: Trata-se de uma amostra formada por aqueles elementos que vão aparecendo e que são possíveis de se obter até completar o tamanho da amostra. Geralmente este tipo de amostragem é utilizado em pesquisa de opinião, em que os entrevistados são acidentalmente escolhidos.
- Amostragem Intencional: São amostragens realizadas de acordo com determinado critério. Escolhe-se intencionalmente um grupo de elementos que irão compor a amostra e intencionalmente o investigador coleta a opinião desses elementos.
- Amostragem por Quotas: Este é o método de amostragem mais comumente utilizado em pesquisas de mercado e em prévias eleitorais. Ela abrange três fases:
- Classificação da população em termos de propriedades que se sabe ou presume serem relevantes para a característica a ser estudada;
- Determinação da proporção da população para cada característica, com base na constituição conhecida, presumida ou estimada da população;
- Fixação de quotas para cada entrevistador, a quem caberá a responsabilidade de selecionar os entrevistados, de modo que a amostra total observada ou entrevistada contenha a proporção de cada classe, tal como determinada na 2ª fase.
Séries Estatísticas
Uma tabela é um quadro que resume um conjunto de dados dispostos em linhas e colunas de maneira sistemática.
Séries Homógradas
São aquelas em que a variável descrita apresenta variação discreta ou descontínua. Podem ser do tipo:
- Série Temporal: A série temporal se identifica pelo caráter variável do fator cronológico. Portanto, o local e o fenômeno são elementos fixos. É também chamada de histórica ou evolutiva.
- Série Geográfica: Apresenta como elemento variável o fator geográfico. A época e o fato são elementos fixos.
- Séries Especificadas: Neste tipo de série, o que varia é apenas o fato ou o fenômeno, permanecendo fixos o tempo e o local. Também é chamada de série categórica.
- Séries Conjugadas: São também chamadas de tabelas de dupla entrada. São apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas ordens de classificação: uma horizontal e outra vertical.
Séries Heterógradas
São séries tabeladas em forma de distribuição de frequências.
Definições (Dados e Tabelas)
- Dados Brutos: São dados que ainda não foram numericamente organizados. Portanto, é difícil termos uma ideia exata do comportamento do grupo como um todo.
- Rol: Um rol é uma tabela obtida após a ordenação dos dados.
- Distribuição de Frequência sem Intervalos de Classe: É a simples condensação dos dados conforme a repetição de seus valores.
- Distribuição de Frequência com Intervalo de Classe: Quando o tamanho da amostra é mais elevado, é mais racional efetuar o agrupamento dos valores em intervalos de classe.
Componentes da Distribuição com Intervalo de Classe
- Classe: É o intervalo de variação da variável e é simbolizada por $i$. O número total de classes é simbolizado por $k$.
- Limites de Classe ($l_i$): São os extremos de cada classe. O menor número é o limite inferior de classe ($l_i$) e o maior número é o limite superior de classe ($l_s$).
- Amplitude do Intervalo de Classe ($h$): É obtida por meio da diferença entre o limite superior e inferior da classe e é simbolizada por $h_i$.
- Ponto Médio da Classe (PM): É o ponto que divide o intervalo de classe em duas partes iguais.
- Amplitude Total da Distribuição: É a diferença entre o ponto médio da última classe e o ponto médio da primeira classe.
- Amplitude Total da Amostra (Rol): É a diferença entre o valor máximo e o valor mínimo do rol.
Na prática, utilizamos um método sequencial para a construção de uma tabela de distribuição de frequências com intervalos de classe. O mesmo está descrito abaixo:
- Organizar os dados brutos em um rol utilizando o método de ramos e folhas;
- Calcular a amplitude total da amostra;
- Calcular o nº de classes, utilizando a fórmula de Sturges: $k = 1 + 3,33 \log n$, onde $n$ é o número de dados ou de observações;
- Determinar a amplitude do intervalo de classe, dividindo a amplitude total da amostra pelo número de classes $k$: $h = A_t / k$.
Representações Gráficas e Frequências
- Histograma: É um gráfico formado por retângulos justapostos, cujas bases se localizam no eixo horizontal de tal modo que seus pontos médios coincidem com o ponto médio do intervalo de classe e suas alturas são proporcionais às suas respectivas frequências absolutas.
- Frequência Simples ou Absoluta: São os valores que realmente representam o número de dados de cada classe. A soma das frequências simples é igual ao número total dos dados da distribuição.
- Frequência Simples Acumulada de uma classe: É o total das frequências de todos os valores inferiores ao limite superior do intervalo de uma classe.
- Frequências Relativas: São os valores obtidos através do quociente entre as frequências simples de cada classe e o total das frequências da distribuição. A soma das frequências relativas é 1 ou 100%.
- Frequência Relativa Acumulada de uma classe: É a frequência acumulada da classe dividida pela frequência total da distribuição.
Gráficos Poligonais
- Polígono de Frequências Simples: É um gráfico formado por uma linha poligonal fechada, traçada a partir dos pontos médios da base superior de cada retângulo dos intervalos de classe. Para realmente obtermos a linha fechada, temos que ligar os extremos da linha obtida aos pontos médios da classe anterior à primeira e da posterior à última, da distribuição.
- Polígono de Frequência Acumulada: É traçado marcando-se as frequências acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos médios correspondentes aos limites superiores dos intervalos de classe.