Data Warehouse, OLAP e Data Mining no Processo Decisório
Classificado em Economia
Escrito em em
português com um tamanho de 26,93 KB
Na primeira parte, apresentam-se os componentes necessários para que se possa compreender melhor o cenário atual onde se encontram aqueles que são os responsáveis pelo processo decisório nas empresas.
São abordadas as evoluções do processo decisório e do suporte ao mesmo, suas etapas e os seus fatores de influência.
A primeira ferramenta é o Data Warehouse, um banco de dados específico para propósitos gerenciais e que é independente dos bancos de dados operacionais.
A segunda ferramenta é o On-Line Analytical Processing (OLAP), utilizada para realizar análises sofisticadas que permitem aos seus usuários compreenderem melhor os negócios realizados na empresa.
A última ferramenta é o Data Mining, que permite fazer uma análise nos dados armazenados durante anos para que se descubram relacionamentos ocultos entre os dados, revelando perfis de compras e de clientes.
Com a abordagem destas três novas ferramentas, deseja-se analisar o que existe de mais avançado, atualmente, para dar um melhor suporte ao processo decisório, sem entrar nos detalhes estritamente técnicos destas tecnologias.
A terceira abordagem é constituída de exemplos de empresas que implementaram estas ferramentas e os resultados obtidos, assim como pelas tendências destas ferramentas para os próximos anos.
Capítulo 1 - Introdução
Esta dissertação visa dar uma contribuição no sentido de analisar algumas das novas ferramentas computacionais que podem auxiliar os processos de tomada de decisões empresariais.
Os novos e modernos conceitos administrativos e os avanços tecnológicos, que não param de evoluir, estão tornando o ambiente das empresas cada vez mais complexo.
Os administradores de empresa passam a maior parte de seu tempo levantando e analisando informações que os levarão às decisões necessárias para o gerenciamento da empresa e dos negócios.
Vários fatores estão contribuindo para mudanças nas empresas e no modo de se tomar decisões estratégicas em seus negócios (Datamind Technology Center, 1998).
O desejo dos acionistas em aumentar os lucros está desafiando as empresas a encontrarem soluções mais criativas para cultivarem seus negócios.
O enfoque primário está em alcançar e manter mais efetivamente os seus clientes e minimizar os custos para se obter uma maior competitividade.
No processo decisório das empresas, existem muitas variáveis envolvidas e ainda existem interesses econômicos e políticos, alguns explícitos e outros ocultos.
Os administradores têm que tomar as suas decisões com base na análise de todas as alternativas possíveis e encontrar a alternativa mais viável.
As decisões empresariais devem ser tomadas com base em dados e/ou fatos comprovados, e deve-se ter o máximo de certeza dos resultados a serem alcançados com a adoção da alternativa escolhida como a mais viável.
No próximo capítulo, será visto que sempre existiu a necessidade de basear-se em "algo" que servia de referência para que se tomassem as decisões consideradas sábias.
O objetivo principal desta dissertação é analisar as três ferramentas que constituem a nova geração de Sistemas de Apoio à Decisão (SAD): o Data Warehouse, o OLAP e o Data Mining, quanto ao suporte proporcionado pelas mesmas aos processos decisórios praticados nas empresas.
Para alcançar este objetivo, é necessário obter os seguintes objetivos secundários:
- Mostrar as origens e o contexto histórico que levou à criação das ferramentas;
O tema abordado por esta dissertação é complexo e multidisciplinar; envolve diversas tecnologias que fazem parte do ambiente informatizado ao qual pertencem as ferramentas.
De acordo com os objetivos propostos, não é necessário um estudo profundo nas tecnologias envolvidas ou nos conceitos da Administração.
Serão citadas as tecnologias, assim como alguns de seus conceitos, até um nível em que se possa compreender a importância destas tecnologias ou destes conceitos para as ferramentas abordadas.
1.3 - A pesquisa bibliográfica
Foi realizado o levantamento da literatura disponível e descobriu-se que a maior parte desta literatura é constituída por artigos.
Parte das publicações abordava aspectos estritamente técnicos das ferramentas, que extrapolam o escopo deste trabalho.
Após a fase de seleção dos assuntos de interesse, passou-se a analisá-los, a confirmar ou confrontar conceitos de diversos autores e a escolher os assuntos dos autores mais reconhecidos ou cuja linha de raciocínio fosse mais coerente com este trabalho.
No Capítulo 1, estão a introdução ao tema, os objetivos, o escopo, a pesquisa bibliográfica e a estrutura da dissertação.
No Capítulo 2, é feita uma revisão bibliográfica, onde são abordados a evolução, as etapas e os fatores de influência do processo decisório, os conceitos básicos, a evolução e as linhas de pesquisas dos Sistemas de Apoio à Decisão.
Nos Capítulos 3, 4 e 5, aborda-se, respectivamente, cada uma das três ferramentas, quanto aos aspectos propostos nos objetivos desta dissertação.
Capítulo 2 - Revisão Bibliográfica
Para que se possa compreender melhor as necessidades das novas ferramentas no suporte ao processo decisório, são abordados neste capítulo alguns tópicos considerados importantes.
São apresentados a evolução e os fatores de influência do processo decisório, os conceitos básicos, a evolução e as linhas de pesquisas dos Sistemas de Apoio à Decisão.
2.1.1 - O processo decisório na Antiguidade
Desde o início da civilização, o homem sempre procurou algo que o auxiliasse no seu processo decisório.
Considerava-se que essas pessoas podiam ter contato direto com as divindades e que as orientações que esses místicos forneciam eram divinas.
Desta forma, as decisões tomadas nesta época eram fortemente influenciadas pelas entidades divinas e seus representantes.
Surgiram, também, líderes religiosos nas comunidades, que passaram a exercer influência direta nas decisões das pessoas por meio dos preceitos religiosos de suas divindades.
E, a exemplo do passado, quando o resultado das decisões proporciona o sucesso, justificava-se como sendo fruto do amor pela divindade.
2.1.2 - A evolução da decisão no século XX
Os critérios de tomada de decisão no começo do século eram centrados no executivo principal, em geral o proprietário, que detinha as prerrogativas de escolher o que julgasse melhor para a empresa e para os trabalhadores (PEREIRA & FONSECA, 1997).
Partia-se do pressuposto que os trabalhadores eram seres passivos e despreparados, sem capacitação e treinamento para atuarem nas decisões.
Como o ambiente era estável e as informações eram restritas, supunha-se que os decisores detivessem conhecimento bastante amplo de todas as alternativas e de suas consequências.
A década de 60 foi precursora de grandes mudanças em todas as áreas e ficou conhecida como “a década que mudou o mundo”.
Este movimento deu um grande passo ao reconhecer o trabalhador como um ser humano capaz de pensar, de decidir e de ser motivado (PEREIRA & FONSECA, 1997).
Os trabalhadores deixaram de ser simples “mão de obra”, ou seja, aqueles que utilizam apenas as mãos para efetuarem seus trabalhos, e passaram a ser chamados de recursos humanos, quer dizer, aqueles que trabalham de corpo e alma, que se esforçam quando motivados e possuem habilidades que podem ser desenvolvidas e aproveitadas em benefício da empresa.
Porém, a contribuição da Psicologia Social nas empresas foi a captação e a manipulação das pessoas para manter as organizações funcionando produtivamente e aumentando cada vez mais a lucratividade da empresa.
2.2 - Conceitos básicos sobre decisão
Segundo PEREIRA & FONSECA (1997), a palavra decisão é formada pelo prefixo de (prefixo latino aqui com o significado de parar, extrair, interromper) que se antepõe à palavra caedere (que significa cindir, cortar).
Tomada ao pé da letra, a palavra decisão significa “parar de cortar” ou “deixar fluir”.
O processo decisório é sempre estressante para os decisores e, geralmente, após as tomadas de decisão importantes, acontece um relaxamento geral nos organismos dos mesmos (PEREIRA & FONSECA, 1997).
Segundo os autores, em algumas pessoas, o estresse provocado pelo processo decisório é marcado por claras manifestações psicossomáticas, tais como dores de cabeça, perturbações gástricas, manifestações de euforia, depressão ou outros sintomas físicos.
Normalmente, estes fatores não fazem parte das variáveis que compõem o problema, ou mesmo das alternativas propostas para a solução do mesmo; porém, estes fatores estão sempre presentes e exercem influência na solução do problema.
As decisões gerenciais afetam diretamente a sobrevivência da empresa e a vida das pessoas que giram em torno dela, sejam elas empregados, acionistas, fornecedores ou clientes.
Muitas vezes, clientes, acionistas e empregados solicitam soluções diferentes e até antagônicas para solucionar um mesmo problema.
Os acionistas exigem garantia de lucro e o retorno sobre o investimento, combinados com o alcance das metas e com a imagem positiva da empresa e de seus produtos.
E os empregados pressionam por melhores condições no trabalho, incluindo melhores salários, garantia de emprego, assistência médica e odontológica, e outras reivindicações mais específicas.
É necessário estabelecer prioridades quando existem objetivos e posições antagônicas, carências ou disputas de recursos e de informações.
É preciso transformar os objetivos organizacionais em objetivos coletivos, por meio da participação e da visão do futuro que deve ser compartilhado com todos os membros da organização.
E é necessário, também, buscar a satisfação dos clientes ou usuários, sem se descuidar dos interesses dos acionistas e das necessidades dos empregados.
As decisões são atos de poder; no momento em que alocam recursos, definem estratégias e conduzem o destino de organizações e de pessoas, os gerentes assumem uma dimensão política muito semelhante à de um governo (PEREIRA & FONSECA, 1997).
No cotidiano, a viabilização desse processo, que na maioria das vezes é cheio de conflitos de interesses, exige objetivos compartilhados, liderança, comunicação efetiva e habilidade de negociação constante.
É função das ferramentas que vão dar o suporte a este processo levantar as informações necessárias de uma forma rápida, confiável e exibi-las de uma forma facilmente compreensível.
2.3 - A evolução dos Sistemas de Apoio à Decisão
SPRAGUE & WATSON (1991) afirmam que, no início da década de 70, várias empresas e grupos de pesquisas começaram a desenvolver Sistemas de Apoio à Decisão, caracterizados como sistemas computacionais interativos que auxiliavam no processo decisório de problemas não estruturados.
Porém, segundo os autores, na década seguinte, vários pesquisadores ampliaram a definição destes sistemas para incluir qualquer sistema capaz de dar contribuição ao processo decisório, desde que possuam as seguintes características:
- Concentrem-se especificamente em recursos que facilitem seu uso para pessoal não especializado em computação;
- Enfatizem a flexibilidade e a adaptabilidade para acomodar mudanças no ambiente e na abordagem ao processo decisório.
2.3.1 - O surgimento do suporte computacional à decisão
Segundo POWER (1997), o conceito de suporte computacional à decisão surgiu com a evolução de duas áreas de pesquisa: os estudos teóricos sobre o Processo de Tomada de Decisão Organizacional (Carnegie Institute of Technology, décadas de 50 e 60) e os trabalhos com Sistemas Computacionais Interativos (MIT, anos 60).
2.3.2 - Os Sistemas de Apoio à Decisão nas décadas de 60 e 70
Segundo PEARSON & SHIM (1995), COSTA (1997) e FISHER (1998), os primeiros SAD surgiram nos anos 60 e 70 para dar suporte aos gerentes na solução de problemas gerenciais não estruturados.
O grande problema naquele período era que as bases de dados não possuíam a arquitetura necessária para pesquisas típicas de SAD e, devido à falta de dados históricos, existia dificuldade para a criação de relatórios e análises gerenciais.
A ênfase dos SADs não estava no processo decisório, mas no suporte computacional para o desenvolvimento rápido das aplicações.
Esses sistemas eram desenvolvidos inicialmente para auxiliar a resolver problemas gerenciais específicos; depois, eram aperfeiçoados para englobar outros problemas.
Porém, nenhum destes sistemas conseguiu dar um bom suporte ao dinâmico processo de tomada de decisão, fornecendo as informações necessárias no momento certo.
Um problema comum ocorria quando gerentes necessitavam realizar consultas ad hoc ou confeccionar relatórios que envolviam muitos dados.
Havia a necessidade de que o pedido entrasse na fila de espera para desenvolvimento e, quando chegava a vez, demorava-se ainda um bom tempo para sua realização.
2.3.3 - Os Sistemas de Apoio à Decisão na década de 80
Somente nos anos 80, com os primeiros Sistemas de Gerenciamento de Banco de Dados (SGBD), tornou-se possível um melhor acesso aos dados, sua formatação e a construção de consultas de forma mais prática e rápida.
Porém, análises sofisticadas ainda eram realizadas de forma “artesanal”: os dados eram colecionados, formatados e só então analisados, muitas vezes fora de qualquer sistema computacional.
Com a chegada de novos softwares, como planilhas eletrônicas e programas de visualização gráfica, estas atividades se tornaram menos complexas.
Mas ainda faltava uma ferramenta que realmente auxiliasse os gerentes no processo de tomada de decisão, facilitando a visão dos negócios de modo fácil, rápido e confiável.
Mesmo com os avanços, a modelagem dos dados era baseada na estrutura dos processos, em vez de na estrutura dos negócios; isso facilitava o operacional, mas dificultava o gerencial.
Era difícil elaborar um relatório que cruzasse informações de sistemas diferentes. Quando necessário, o relatório continuava a ser confeccionado artesanalmente, o que atrasava o processo decisório.
Muitas vezes, o setor de desenvolvimento levava meses ou anos para entregar sistemas que, quando prontos, já não atendiam às necessidades devido às mudanças do mercado.
2.3.4 - Os Sistemas de Apoio à Decisão na década de 90
Segundo THE (1998) e WELDON (1998), surgiram no início desta década as ferramentas CASE e as Linguagens de Quarta Geração.
Estas ferramentas prometiam resolver os problemas dos usuários finais que precisavam de informações rápidas. As planilhas eletrônicas tentaram amenizar a falta de ferramentas de análise, permitindo a geração de gráficos com facilidade.
Contudo, gerentes ainda gastavam mais tempo manipulando dados do que realizando as análises necessárias.
Recursos como a reusabilidade da OOP (Programação Orientada ao Objeto) e do RAD (Desenvolvimento Rápido de Aplicação) demonstraram valor, todavia ainda faltava flexibilidade (WELDON, 1998).
Com o tempo, o volume de dados aumentou, exigindo respostas mais rápidas e confiáveis que se adaptassem ao gerenciamento moderno.
Entre as novas ferramentas de TI, destaca-se o ERP (Enterprise Resource Planning) para o ambiente operacional, e a nova geração de SAD: o Data Warehouse, o OLAP e o Data Mining para o ambiente gerencial (BISPO & CAZARINI, 1998b).
Com o Data Warehouse e o OLAP, as consultas e relatórios passaram a ser confeccionados pelos próprios usuários, de forma rápida, barata e confiável.
O uso destas ferramentas permite que os gerentes usem melhor seu tempo para análises e geração de soluções.
2.4 - As linhas de pesquisas dos Sistemas de Apoio à Decisão
EOM (1996) identificou as principais linhas de pesquisas deste campo:
- Sistemas de Apoio à Decisão em Grupo: Pesquisa como recursos de software e hardware auxiliam análises coletivas à distância.
- Interface Homem-Máquina: Estuda a evolução da introdução de dados e visualização de resultados.
- Modelagem de Dados: Criação de modelos abstratos que representam o mundo real.
- Psicologia Cognitiva e Aprendizado Organizacional: Estuda como o aprendizado humano interfere nos processos decisórios.
- Inteligência Artificial: Estuda sistemas baseados no conhecimento para auxiliar decisões.
- Teoria das Organizações: Estuda a estrutura organizacional para auxiliar na criação de modelos.
- Teoria de Sistemas: Estuda a complexidade e inter-relacionamentos dos sistemas nas empresas.
- Pesquisa Operacional e Otimização: Modelos avançados para maximização de recursos.
Muitas vezes, os novos sistemas trabalham em conjunto com os antigos. Por exemplo, informações do OLAP ou Data Mining podem alimentar um Sistema Multicritério de Apoio à Decisão.
Capítulo 3 - Data Warehouse
O capítulo anterior apresentou uma revisão bibliográfica sobre o processo decisório. Agora, foca-se no Data Warehouse.
3.1 - Conceitos básicos
O Data Warehouse (DW) ainda não possui uma definição universalmente aceita. Envolve conceitos de banco de dados, redes e administração.
William H. Inmon define: "Um Data Warehouse é um conjunto de dados baseado em assuntos, integrado, não volátil e variável em relação ao tempo, de apoio às decisões gerenciais."
- Orientada a assuntos: Foca em clientes, vendas, produtos, etc., enquanto sistemas tradicionais focam em processos (estoque, faturamento).
- Integrada: Padroniza termos (ex: unificar códigos de sexo como 'M'/'F').
- Não volátil: Os dados não sofrem alteração ou exclusão; apenas carga e consulta.
- Variável no tempo: Contém elementos de tempo (horizonte de 5 a 10 anos, contra 2 a 3 meses do operacional).
O objetivo básico é satisfazer as necessidades de executivos e analistas quanto ao armazenamento de dados para consultas estratégicas.
Um benefício é a diminuição do tempo para obter informações, eliminando tarefas operacionais de pesquisa. O DW permite transformar dados esparsos em informações estratégicas (TAURION, 1997).
3.2 - As principais ferramentas utilizadas em um Data Warehouse
- Ferramenta para armazenamento (Bancos de dados);
- Ferramenta para a extração de dados;
- Ferramenta para o refinamento ou limpeza de dados;
- Ferramenta para gerenciamento e administração;
- Ferramentas para gerenciamento de consultas;
- Ferramentas para gerenciamento de relatórios.
3.3 - A modelagem dos dados
Segundo WELDON (1998), um modelo é uma representação abstrata. O processo envolve o modelo conceitual, o modelo lógico e, finalmente, o modelo físico para implementação.
3.4 - A qualidade dos dados
A qualidade é o estado de perfeição e precisão dos dados (HUFFORD, 1998). Dados de má qualidade podem comprometer a análise e levar a decisões erradas.
Exemplos de problemas: duplicidade de clientes ou dados armazenados de formas diferentes que impedem pesquisas eficazes.
Para melhorar a qualidade, é necessário o processo de limpeza de dados (data cleansing), que extrai, transforma e carrega os dados no armazém em estado confiável.
3.5 - Segurança de dados
KIMBALL (1998e) alerta para os perigos da falta de segurança. O projeto deve prever:
- Tecnologia de segurança: Identificação, autorização e proteção contra invasões.
- Administração da segurança: Controle de regras e senhas.
O principal documento da política de segurança deve ser assinado pelo presidente da empresa para demonstrar a importância do recurso informação.
3.6 - O Data Warehouse no gerenciamento dos negócios
As empresas estão adotando posições mais agressivas e programas como Qualidade Total e Reengenharia, focando no cliente.
É necessário conhecer os hábitos dos clientes, tendências de mercado e dados dos concorrentes. O DW deve favorecer análises de evolução histórica, demanda, participação de mercado e retorno de investimentos.
3.7 - Elaboração e implantação do projeto
A equipe deve ser composta por pessoas da área de negócios e da área tecnológica. O tamanho do DW não determina o sucesso, mas sim seu uso como suporte à decisão (TAURION, 1998a).
Etapas principais:
- Identificar objetivos da organização;
- Identificar processos de negócio relacionados;
- Definir informações necessárias;
- Escolher fornecedores;
- Treinar usuários e técnicos.
3.8 - A escolha do tipo de dado a ser armazenado
Dados podem ser primitivos (atômicos) ou derivados (sumarizados). Dados atômicos permitem análises profundas, mas ocupam mais espaço. Dados sumarizados oferecem melhor performance, mas limitam a pesquisa detalhada.
3.9 - Metadados
Metadados são "dados sobre dados". Controlam o uso, segurança e integridade, ajudando DBAs e usuários a entenderem a origem das informações.
3.10 - Data Mart
São subconjuntos de dados dentro de um DW, projetados para unidades organizacionais específicas (NIMER, 1998).
Capítulo 4 - OLAP (On-Line Analytical Processing)
O DW resolve o armazenamento, mas o OLAP provê a análise sofisticada em diversas perspectivas (dimensões).
O OLAP é o sucessor do EIS (Executive Information Systems). Permite acesso interativo e rápido a visões dos dados, transformando dados crus em informações compreensíveis.
Características principais:
- Visão conceitual multidimensional;
- Inteligência de tempo;
- Análises do tipo "O que aconteceria se..." (What-if);
- Interface com planilhas e browsers.
4.2 - ROLAP - Relational On-Line Analytical Processing
Simulação da tecnologia OLAP em bancos de dados relacionais. Vantagem: utiliza tecnologia estabelecida e escalável. Limitação: funções dimensionais mais pobres comparadas ao multidimensional nativo.
4.3 - MOLAP - Multidimensional On-Line Analytical Processing
Utiliza estruturas de cubos multidimensionais. A interseção das dimensões (ex: Produto x Tempo x Região) gera a medida (ex: total de vendas).
4.4 - WOLAP ou Web OLAP
Migração do OLAP para a Internet, facilitando o suporte a usuários distantes e aplicações de groupware.
Capítulo 5 - Data Mining
O Data Mining (mineração de dados) utiliza técnicas de Inteligência Artificial para descobrir relacionamentos complexos e ocultos em grandes volumes de dados.
Diferente do OLAP, onde o usuário formula hipóteses, o Data Mining descobre padrões automaticamente.
5.1 - Conceitos de Data Mining
As raízes estão na estatística dos anos 60, evoluindo para Redes Neurais e Lógica Nebulosa nos anos 80 e 90. Ajuda a identificar clientes propensos a deixar a empresa ou perfis de novos compradores.
Hierarquia da complexidade:
- Dados;
- Informações ou Fatos;
- Norma ou Regra;
- Conhecimento.
5.2 - Tipos de modelos construídos
- Classificação: Identifica a qual grupo um item pertence.
- Agrupamento (Clustering): Identifica grupos com afinidades.
- Associação: Identifica afinidades entre produtos (ex: quem compra fralda, compra cerveja).
- Sequenciamento: Identifica eventos ao longo do tempo.
- Predição: Prevê valores futuros (vendas, riscos).
5.3 - As técnicas utilizadas
- Lógica Nebulosa (Fuzzy Logic): Captura informações vagas e converte em números.
- Redes Neurais Artificiais: Sistemas que "aprendem" com o treinamento.
- Algoritmos Genéticos: Técnicas de otimização baseadas na evolução natural.
- Visualização de Dados: Representação gráfica para compreensão intuitiva.
Capítulo 6 - Exemplos de empresas e resultados obtidos
- Walmart: Descobriu a associação entre vendas de fraldas e cervejas às sextas-feiras. Reduziu itens em estoque de 51.000 para 14.000.
- Bancos: Identificação de bons clientes para ofertas de crédito específicas (ex: pais com filhos em idade universitária).
- Setor Público: Detecção de sonegação de impostos e análise de evolução patrimonial.
- NBA: Uso do software Advanced Scout para analisar jogadas de adversários e descobrir perfis de jogadores.
- Saúde (Aetna U.S. Healthcare): Detecção de fraudes em tratamentos médicos, economizando milhões de dólares.
Capítulo 7 - Tendências e Conclusões
As tendências apontam para a migração total para a Internet (Netwarehouse e Netmining) e a integração das ferramentas de SAD com os sistemas ERP.
O sucesso depende de um projeto bem elaborado e, fundamentalmente, dos recursos humanos. Ferramentas potentes em mãos despreparadas não geram resultados.
A ordem natural de implantação sugerida é: primeiro o Data Warehouse para organizar os dados, depois o OLAP para análises dimensionais e, finalmente, o Data Mining para extrair conhecimento oculto.
Este trabalho baseou-se em vasta literatura para confrontar conceitos e oferecer uma visão consolidada sobre o suporte ao gerenciamento dos negócios.
Sugestões para trabalhos futuros incluem estudos de viabilidade por setor (indústria, comércio, saúde) e análise de custo-benefício em empresas que já utilizam estas tecnologias.
seu texto aqui!