Big Data: Conceitos, os 5 Vs e a Importância do Hadoop
Classificado em Computação
Escrito em em
português com um tamanho de 4,03 KB
Big Data é o termo que descreve o imenso volume de dados estruturados e não estruturados que são gerados a todo momento (principalmente na internet) e que impactam os negócios no dia a dia.
São conjuntos de dados extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes meios possa ser encontrada, analisada e aproveitada em tempo hábil.
Que dados podem ser úteis?
- Dados extraídos de ferramentas de Inteligência de Negócios (Business Intelligence - BI);
- Dados que chegam aos seus sistemas de TI a partir de uma rede de dispositivos conectados;
- Exemplos: Arquivos de log de servidores web e conteúdo de mídias sociais.
Como esses dados podem ser úteis?
Uma empresa poderá entender como:
- Melhorar um produto;
- Criar uma estratégia de marketing mais eficiente;
- Cortar gastos;
- Produzir mais em menos tempo;
- Evitar o desperdício de recursos.
Os 5 Vs do Big Data
Volume: Organizações coletam dados de uma grande variedade de fontes, incluindo transações comerciais, redes sociais e informações de sensores ou dados transmitidos de máquina a máquina.
Velocidade: Os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de RFID, sensores, celulares e contadores inteligentes estão impulsionando a necessidade de lidar com imensas quantidades de dados em tempo real, ou quase real.
Variedade: Os dados são gerados em todos os tipos de formatos — de dados estruturados (dados numéricos em bancos de dados tradicionais) até documentos de texto não estruturados, e-mail, vídeo, áudio, dados de cotações da bolsa e transações financeiras.
Veracidade: O ponto de vista da veracidade (veracity) também pode ser considerado, pois não adianta muita coisa lidar com a combinação "volume + velocidade + variedade" se houver dados não confiáveis. É necessário que haja processos que garantam o máximo possível a consistência dos dados.
Valor: Informação não é só poder, informação também é patrimônio. A combinação "volume + velocidade + variedade + veracidade", além de todo e qualquer outro aspecto que caracteriza uma solução de Big Data, se mostrará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Este é o ponto de vista do valor.
Hadoop
A biblioteca de software Hadoop permite o processamento distribuído de grandes conjuntos de dados através de clusters de computadores usando modelos de programação simples. Ele é projetado para garantir larga escalabilidade, partindo de um único servidor até um cluster com milhares de máquinas, cada uma oferecendo capacidade de computação e armazenamento local.
O Hadoop é tido como uma solução adequada para Big Data por vários motivos:
- É um projeto open source, como já informado, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. Por causa desta característica, vários projetos derivados ou complementares foram — e ainda são — criados;
- Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas;
- O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados;
- O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar novos recursos ao sistema.