Business Intelligence: Guia Completo

Classificado em Tecnologia

Escrito em em português com um tamanho de 10,96 KB.

Business Intelligence (BI)

É um conjunto de métodos, processos, tecnologias e ferramentas que ajudam a converter dados ou informações em planos que guiam a organização para melhores tomadas de decisão.

Pensamento: “Quanto mais informações e dados forem obtidos pela organização, melhores serão suas chances nos negócios”.

O BI abrange todos os processos para, no final, oferecer suporte para um processo de tomada de decisões mais seguro e a criação de estratégias de negócios mais eficientes.

Ciclo do Business Intelligence

Normalmente, o processo de Business Intelligence segue as seguintes etapas:

  1. Data Warehouse: local onde as informações, de diferentes fontes, ficam concentradas.
  2. Data Mining: mineração dos dados coletados para a retirada de informações relevantes.
  3. Analytics: análise dos dados minerados para a criação de relatórios detalhados.
  4. Reengenharia de Processo de Negócios (BPR): análise dos fluxos de trabalho e processos internos para a reestruturação organizacional.
  5. Benchmarking: comparação de desempenho entre dois ou mais sistemas para melhorar uma função similar.

Business Intelligence vs. Data Science

BI

• Providencia relatórios, dashboards, consultas. O foco é analisar o que ocorreu no período corrente ou passado.

Data Science

• Usa dados desagregados (que perderam os princípios da coesão). Explora novos caminhos para unir e analisar acontecimentos que fornecem informações e medições sobre o futuro.

Problemas do BI

• Precisam que os dados estejam estruturados (organizados) para uma boa acurácia. Processo de ETL: Extração > Transformação > Carga.

A escolha pelo Data Science é feita quando as análises envolvem dados desagregados e inclusão de vários datasets.

Conceito “Self-Service BI”

Consiste no desenvolvimento de sistemas que permitam que a própria área de negócios trabalhe as informações de que precisa, sem a necessidade de um contato direto com a TI.

A maior parte não usa as facilidades do self-service BI para vender mais, entender melhor o seu negócio ou conhecer os seus clientes, principais premissas de um projeto de business intelligence. Os esforços são voltados, em grande parte, para comprovar que um número pode não ser tão ruim quanto parece.

Power BI vs. Pentaho CE

Pentaho CE

Fornece todas as ferramentas necessárias para integração de dados, relatórios, OLAP, data mining e atividades ETL.

Power BI

Suíte bastante completa com integração aos outros aplicativos Microsoft, porém é considerado mais simples de utilizar (conceito self-service BI).

BI vs. Big Data

Conceito de Big Data

São dados cuja escala, distribuição, diversidade e/ou atualidade exigem o uso de novas arquiteturas técnicas e análises para permitir insights que liberem novas fontes de valor comercial.

• Big Data trabalha com dados estruturados e não estruturados. Em muitas situações, Big Data e BI trabalham juntas.

Data Structures

Os dados podem ser de quatro tipos:

  1. Dados estruturados: que contêm uma definição de tipos, formatos e estruturas (bases de dados transacionais, OLAPs data cubes, CSV files e planilhas).
  2. Semi-estruturados: arquivos de texto que contêm padrões e que habilitam conversões de tipos (exemplo: XML, algumas linguagens de marcação e arquivos de sincronização e carga).
  3. Quase-estruturados: dados textuais que não possuem padrão claro, porém, com esforço, ferramentas e tempo, podem ser formatados.
  4. Não estruturados: dados que não possuem estrutura inerente. Podem incluir textos, PDFs, imagens e vídeos.

Tipos de Usuários – BI

Os sistemas de BI possuem 4 tipos de usuários:

  1. Power Users:
    • Amplo entendimento de negócio e tecnologia. Conseguem analisar e explorar os dados de forma bastante eficiente. Mais privilégios de acesso aos dados.
  2. Business Users:
    • Possuem mais conhecimento do negócio da empresa. Também possuem privilégios em relatórios detalhados. Alguns, com pouco de conhecimento em tecnologia, conseguem desenvolver consultas bastante satisfatórias.
  3. Casual Users:
    • Normalmente, exigem um acesso mais detalhado às informações. Possuem capacidade de atualizar informações no relatório e inserir parâmetros de pesquisa. Fornecem análise de alta qualidade para usuários de níveis hierárquicos acima.
  4. Executivos, Clientes e Parceiros:
    • Informação sumarizada. Relatórios estáticos visando tomadas de decisão rápidas. Preferem ver os relatórios online com a opção de impressão.

Data Warehouse

• Armazém de dados ou DW. São grandes repositórios que consolidam dados de diferentes fontes. Permite um fácil acesso às informações armazenadas. Possui modelagem multidimensional. Devido à sua arquitetura, permite respostas rápidas e o armazenamento de grandes volumes de dados.

Aspectos de construção

Etapas para a construção de um Data Warehouse:

  1. ETAPA 1: Levantamento de necessidades
    • Análise das informações desejadas pelo usuário. Trabalhar com o “O quê...?” e não com o “Como...?”
  2. ETAPA 2: Mapeamento dos dados
    • Identificar todas as fontes. Verificar se é possível realizar “o sonho” do usuário.
  3. ETAPA 3: Construção Staging Area
    • Transição dos dados para o DW. Desacoplar o OLTP. Início do tratamento de dados.
  4. ETAPA 4: Construção das dimensões
    • Definição das dimensões com base nas etapas anteriores. Definição da historicidade dos dados.
  5. ETAPA 5: Construção dos fatos
    • Definição da granularidade da informação. Expectativa de crescimento e armazenamento.
  6. ETAPA 6: Definição do processo geral de carga
    • Criar um motor para que os dados sejam carregados, atualizados, orquestrados e processados de forma automática e ordenada.
  7. ETAPA 7: Criação de metadados
    • Processo de construção e dicionário de dados. Seria uma espécie de documentação.

Bases OLTP

• Termo usado para se referir aos sistemas transacionais. São os bancos de dados que fornecem dados para os Data Warehouses (ex.: PostgreSQL, Oracle, SQL Server, MySQL). Utilizados no processamento dos dados de rotina que são gerados diariamente através dos sistemas informacionais da empresa.

Dados normalizados vs. Dados desnormalizados

Dados normalizados

• Dados que estão na terceira forma normal. Reduzir redundância dos dados e chances de inconsistências. Inserir, alterar e deletar.

Dados desnormalizados

• Foco em consulta. Melhorar o desempenho das consultas. Não garante a consistência dos dados. Banco de dados maior.

Data Cube

• É o modelo de dados n-dimensional. É definido por dimensões e fatos.

OLAP - On-line Analytical Processing

• Capacidade de analisar grandes volumes de informações nas mais diversas perspectivas dentro de um Data Warehouse (DW). Faz referência às ferramentas analíticas utilizadas no BI para a visualização das informações gerenciais e dá suporte para as funções de análises do negócio organizacional.

Modelagem multidimensional

• É um processo que tem como objetivo estruturar os dados de forma a torná-los mais fáceis de utilizar. É um tipo de modelagem de bancos OLAP que dá suporte ao apoio de tomadas de decisão.

As duas principais são:

  • Star Schema
  • Snowflake

Tabela Fato

• É a principal tabela do Data Warehouse. Armazenam métricas: tudo aquilo que a empresa quer medir. Representa um item, uma transação ou um evento de negócio. É tudo aquilo que reflete a evolução dos negócios do dia a dia de uma organização.

Possuem 6 tipos:

  1. Fato transacional
    o Fatos transacionais são as mais comuns.
    o Maioria dos bilhões de linhas que temos no Data Warehouse são de tabelas fato transacional.
    o Geralmente utilizam métricas aditivas, aquelas métricas que a gente pode somar por todas as dimensões.
  2. Fato agregada
    o Servem para armazenar um conjunto de dados quando não queremos uma análise detalhada.
    o Têm a função de acelerar o desempenho das consultas.
  3. Fato consolidada
    o Bem parecida com a agregada, mas serve para combinar 2 tipos de processos.
    o Na fato agregada, consolidamos as métricas. Na fato consolidada, consolidamos duas fatos.
    o Precisamos trabalhar no ETL.
  4. Fato Snapshot Periódico e Snapshot Acumulado
    o Quando queremos visualizar a situação atual de algum aspecto do negócio.
    o A diferença entre Periódico e Acumulado é que no periódico você tira uma foto de um momento específico e, no acumulado, vários momentos simultaneamente.
  5. Fato sem fato
    o É uma exceção. Só é usada quando se precisa fazer uma intersecção entre as dimensões.
    o Usamos quando queremos comparar ou cruzar algo somente entre duas dimensões e não tem uma métrica para fazer essas comparações.
    o Serve para modelarmos coisas que “não aconteceram”.

Tabela Dimensão

• São perspectivas usadas para analisar os dados. Definem aspectos qualitativos dos nossos dados, possuindo característica descritiva. Definem também o nível de granularidade. São os elementos que participam de um fato, assunto de negócios. As dimensões determinam o contexto de um assunto de negócios. Dimensões normalmente não possuem atributos numéricos, pois são somente descritivas e classificatórias dos elementos que participam de um fato.

Star Schema

• Nesse modelo, as tabelas de dimensões são ligadas diretamente à tabela fato. Os dados são desnormalizados, pois a redundância resultante gera benefícios para a otimização das consultas e navegação das informações. Composta de Fato, Dimensão e Medidas.

Medidas

• Medidas são os atributos numéricos que representam um fato. Uma medida é determinada pela combinação das dimensões que participam de um fato e estão localizadas como atributos de um fato.

ETL

• ETL (Extraction, Transformation, Loading): Extração, Transformação e Carga. Etapa utilizada para extrair dados de recursos internos e externos de uma organização. São processos complexos e custosos, porém importantes para reduzir os custos de desenvolvimento e manutenção.

Entradas relacionadas: