Guia Completo de Business Intelligence: Do Conceito à Prática
Classificado em Computação
Escrito em em português com um tamanho de 9,28 KB.
Business Intelligence (BI)
É um conjunto de métodos, processos, tecnologias e ferramentas que ajudam a converter dados ou informações em planos que guiam a organização pára melhores tomadas de decisão.
Ciclo do Business Intelligence
Normalmente, o processo de Business Intelligence segue as seguintes etapas:
1. Data Warehouse: local onde as informações, de diferentes fontes, ficam concentradas.
2. Data Mining: mineração dos dados coletados pára a retirada de informações relevantes.
3. Analytics: análise dos dados minerados pára a criação de relatórios detalhados.
4. Reengenharia de Processo de Negócios (BPR):análise dos fluxos de trabalho e processos internos pára a reestruturação organizacional.
5. Benchmarking:comparação de desempenho entre dois ou mais sistemas pára melhorar uma função similar.
Business IntelligenceVs. Data Science
BI
· Providencia relatórios, dashboards, consultas;
· O foco é analisar o que ocorreu no período corrente ou passado.
Data Science
· Usa dados desagregados (que perderam os princípios da coesão);
· Explora novos caminhos pára unir e analisar acontecimentos que fornecem informações e medições sobre o futuro.
Conceito “Self-Service BI”:
Consiste no desenvolvimento de sistemas que permitam que a própria área de negócios trabalhe as informações de que precisa, sem a necessidade de um contato direto com a TI.
PowerBIVs. PentahoCE
PentahoCE: Fornece todas as ferramentas necessárias pára integração de dados, relatórios, OLAP, data mining e atividades ETL.
PowerBI: Suíte bastante completa com integração aós outros aplicativos Microsoft, porém é considerado mais simples de utilizar (conceito self-servisse BI).
DataStructures
Os dados podem ser de quatro tipos:
Dados estruturados: que contém uma definição de tipos, formatos e estruturas (bases de dados transacionais, OLAPs data cubes, CSV files e planilhas).
Semi-estruturados: arquivos de texto que contém padrões e que habilitam conversões de tipos (exemplo: XML, algumas linguagens de marcação e arquivos de sincronização e carga).
Quase-estruturados: dados textuais que não possuem padrão claro, porém com esforço, ferramentas e tempo podem ser formatados.
Não estruturados: dados que não possuem estrutura inerente. Podem incluir textos, PDFs, imagens e vídeos.
Data Warehouse
· Armazém de dados ou DW;
· São grandes repositórios que consolidam dados de diferentes fontes;
· Permite um fácil acesso às informações armazenadas.
· Possui modelagem multidimensional;
· Devido sua arquitetura, permite respostas rápidas e o armazenamento de grandes volumes de dados.
Bases OLTP
· Termo usado pára se referir aós sistemas transacionais;
· São os Banco de Dados que fornecem dados pára os Data Warehouses; (Ex: PostegreSQL, Oracle, SQL Server, MySQL)
· Utilizados no processamento dos dados de rotina que são gerados diariamente através dos sistemas informacionais da empresa
Dados normalizados vs Dados Desnormalizados
Dados normalizados:
· Dados que estão na terceira forma normal;
· Reduzir redundância dos dados e chances de inconsistências;
· Inserir, alterar e deletar.
Dados desnormalizados:
· Foco em consulta;
· Melhorar o desempenho das consultas;
· Não garante a consistência dos dados;
· Banco de dados maior.
Tabela Fato
· É a principal tabela do Data Warehouse;
· Armazenam métricas: tudo áquilo que a empresa quer medir.
· Representa um item, uma transação ou um evento de negócio;
· É tudo áquilo que reflete a evolução dos negócios do dia a dia de uma organização;
Possuem 6 tipos:
· Fato transacional
o Fatos transacionais são as mais comuns.
o Maioria dos bilhões de linhas que temos no Data Warehouse são de tabelas fato transacional.
o Geralmente utilizam métricas aditivas, aquelas métricas que a gente pode somar por todas as dimensões.
· Fato agregada
o Servem pára armazenar um conjunto de dados quando não queremos uma análise detalhada.
o Tem a função de acelerar o desempenho das consultas.
· Fato consolidada
o Bem parecida com a agregada, mas serve pára combinar 2 tipos de processos.
o Na fato agregada, consolidamos as métricas. Na fato consolidada, consolidamos duas fatos.
o Precisamos trabalhar no ETL.
· Fato Snapshot Periódico e Snapshot Acumulado
o Quando queremos visualizar a situação atual de algum aspecto do negócio.
o A diferença entre Periódico e Acumulado é que no periódico você tira uma foto de um momento específico e, no acumulado, vários momentos simultaneamente.
· Fato sem fato
o É uma exceção. Só é usada quando se precisa fazer uma intersecção entre as dimensões.
o Usamos quando queremos comparar ou cruzar algo somente entre duas dimensões e não tem uma métrica pára fazer essas comparações.
o Serve pára modelarmos coisas que “não aconteceram”.
O que é MDX?
MDX (Multi-Dimensional eXpressions), linguagem definida pela Microsoft pára consultas em servidores OLAP. Podemos usar o MDX pára criarmos consultas em modelos multidimensionais ou criar membros calculados (medidas).
Identificadores
São o nome dos objetos do serviço de análise (cubos, dimensões, hierarquias, níveis, membros etc.).
O que são Expressões Regulares?
•Uma expressão regular é uma sequencia de caracteres que são transformados em um algoritmo pára identificar palavras, cruzar padrões e manipular texto.
•As expressões regulares permitem: Extrair, editar, substituir e deletar palavras em uma frase. Adicionar partes de texto em uma coleção pára geração de relatórios.
Por que estudar Expressões Regulares?
•Computadores são muito bons pára se trabalhar com estrutura de dados, mas ainda tem dificuldades de entender textos tão bem como as pessoas. Expressões Regulares procuram entender padrões em textos pára que possamos identificar e/ou validar informações.
Construindo Padrões
•O RegEx permite uma variedade de caminhos diferentes pára se construir o mesmo padrão. A melhor forma de se trabalhar com ele é construir a string de validação passo a passo, identificando os padrões e escrevendo sua validação um por vez na string.
Metacaracteres
•No regex utilizamos caracteres literais (ou metacaracteres) pára construirmos padrões, onde cada um deles serve pára expressar uma determinada situação.
[ ]
•Serve pára expressarmos uma lista de possíveis caracteres em uma posição do texto.
[ ] -Intervalo
•Se quisermos identificar um horário das 1 as 9, e também incluir a validação do AM, poderíamos escrever [123456789][AaPp][Mm]
Negação ^
•Caractere ^
Imagine, por exemplo, que queremos verificar algum texto que não possua vogais. Podemos construir o padrão abaixo: [^aeiou] onde^ nega os valores possíveis de determinado intervalo
•Temos alguns atalhos que nos ajudam a criar os padrões:
\D –Representa qualquer caracterer que NÃO seja um dígito inteiro (correspondente ao [^0-9]
\w –Qualquer caractere alfanumérico (correspondente ao [a-zá-Z0-9_])
\W –Negação do \w
\s –Qualquer espaço ou tabulação em branco (\r\n\t\f)
. –representa qualquer caractere (com exceção do \n)
{}
•{} são também chamados de quantificadores. Os quantificadores permitem especificar o número de vezes que determinado caractere irá ocorrer. Nesses exemplos:
* –representa Zero ou mais vezes (correspondente ao {0,})
+ -representa UMA ou mais vezes (correspondente ao {1,})
? –representa ZERO OU UMA vez (correspondente ao {0,1}
Character Description
^ -Inícioda string
$ -Final da string (se Multiline, iráverificarno final da linha)
\b –Ancorade palavra
()
•() representa uma alternação. Alternação é a habilidade do padrão aceitar uma lista de valores. A extensão de um site, por exemplo, pode ser .Com, .Net, .Br, .Edu, .Org. Assim, tem-se uma lista de possibilidades. Podemos então utilizar o padrão (com|net|br|edu|org), separado por |indicando uma nova opçã