O Que É Data Warehouse? (conceito, definição e exemplos)

0
1187

Última Atualização 19 de fevereiro de 2021

DATA WAREHOUSE é um depósito de dados digitais que serve para armazenar informações detalhadas relativamente a uma empresa, criando e organizando relatórios através de históricos que são depois usados pela empresa para ajudar a tomar decisões importantes com base nos fatos apresentados.

O data warehouse serve para recolher informações de uma empresa para que essa possa controlar melhor um determinado processo, disponibilizando uma maior flexibilidade nas pesquisas e nas informações que necessitam.

Para além de manter um histórico de informações, o Data Warehousecria padrões melhorando os dados analisados de todos os sistemas, corrigindo os erros e restruturando os dados sem afetar o sistema de operação, apresentando somente um modelo final e organizado para a análise.

O DW de uma empresa é um banco de dados especializado, que serve como repositório central de dados de toda a empresa. Ele tem como objetivo servir de base de consulta para que se realize análises através de relatórios visuais, painéis gerenciais, técnicas de mineração de dados e outras ferramentas que citaremos mais à frente

QUESTÃO CERTA: Um Data Warehouse é um banco de dados multidimensional grande, de escopo organizacional (ou seja, abrange toda a empresa) e reúne dados de todos os departamentos de forma a permitir a busca rápida de informações para auxiliar a tomada de decisões estratégicas;

QUESTÃO CERTA: o Data Warehouse não é volátil, permite apenas a carga inicial dos dados e consultas a estes dados. Além disso, os dados nele armazenados são precisos em relação ao tempo, não podendo ser atualizados.

Os dados em um DW são carregados periodicamente (geralmente em grande quantidade de registros de uma só vez) e depois disso podem ser acessados pelos usuários, mas nunca atualizados.

Isso é um comportamento distinto dos sistemas transacionais, que, como vimos, sofrem vários acessos, inserções, remoções e atualizações de dados conforme a necessidade.

O propósito dessa característica do DW é manter um histórico dos dados.

Quando há alguma modificação, um novo registro é armazenado e uma data/hora atribuída a ele.

Assim, um registro é uma “fotografia” dos dados estática no tempo.

Entenda que uma tabela presente em um DW pode ser atualizada, adicionando-se novos registros quando ocorre a carga de dados, o que geralmente é evitada é a atualização ou remoção dos registros já existentes nessas tabelas.

Note, contudo, que não é absolutamente proibido que se altere ou remova um registro no data warehouse, já que é possível que tenham ocorrido erros nas inserções iniciais que precisem ser corrigidos ou mesmo seja necessário remover dados muito antigos, que não servem mais para a análise, liberando assim espaço em disco para novos registros.

Em via de regra, para fins de prova, você pode considerar que os dados já presentes em um DW não são atualizados. Contudo, se o examinador fosse muito taxativo, dizendo “em hipótese alguma é possível que se remova ou altere algum registro de um data warehouse…”, eu mesmo marcaria falso!

QUESTÃO CERTA: Em um Data Warehouse (armazém de dados) que apresente a característica de ser não volátil, os dados não são atualizados após a inserção inicial.

QUESTÃO CERTA: O processo ETL é uma etapa importante no projeto de um data warehouse. No processo ETL: um intervalo possível para a carga periódica de dados no data warehouse é de 24 horas.

QUESTÃO CERTA: Usualmente, os data warehouses dão apoio a análises de série temporal e de tendências, as quais requerem maior volume de dados históricos do que os que geralmente são mantidos em bancos de dados transacionais.

QUESTÃO CERTA: O data warehouse diferencia-se dos bancos de dados transacionais porque: tem dimensionalidade genérica e níveis de agregação ilimitados.

Algumas características do DW:

– Acessibilidade;

– Manipulação de dados intuitiva;

– Recurso de relatório flexível;

– Dimensionalidade Genérica;

– Dimensões e Níveis de agregação ilimitados;

– Transparência.

QUESTÃO CERTA: O volume de dados de um DW geralmente é superior ao volume de dados de um BD transacional.

QUESTÃO CERTA: Data Warehouse é uma coleção de dados orientados ao assunto, que tem como características visão conceitual multidimensional, operações interdimensionais irrestritas, dimensões e níveis de agregação ilimitados, sendo que os dados são não voláteis e variantes no tempo.

QUESTÃO ERRADA: Comparados aos bancos de dados transacionais, os data warehouses são mais voláteis porque, para que se mantenham consistentes, são atualizados em tempo real a cada atualização que ocorrer em qualquer uma das bases originais de dados que o componham.

– Orientado por assunto: Refere-se aos sistemas transacionais organizados em uma determinada aplicação de uma empresa. A orientação por assunto é uma característica importante, pois toda a modelagem do Data Warehouse é orientada a partir dos principais assuntos da empresa.

– Integrado: é a característica mais importante do Data Warehouse, pois trata da integração, que é feita do ambiente operacional para as aplicações do Data Warehouse. A integração é realizada visando padronizar os dados dos diversos sistemas em uma única representação, para serem transferidos para a base de dados única do Data Warehouse.

– Não volátil: Nos sistemas transacionais os dados sofrem diversas alterações como, por exemplo, a inclusão, alteração e exclusão de dados. No ambiente do Data Warehouse os dados, antes de serem carregados, são filtrados e limpos “gerando informação”. Após esta etapa esses dados sofrem somente operações de consulta e exclusão, sem que possam ser alterados, e esta característica representa a não-volatilidade.

– Variável com o tempo: A variação em relação ao tempo consiste na manutenção de um histórico de dados em relação ao período de tempo maior que dos sistemas comuns, isto significa que as técnicas de mineração de dados não são aplicadas em tempo real, de forma a não comprometer o desempenho dos bancos transacionais OLTP. Ao analisarmos um dado de um Data Warehouse, o mesmo sempre estará relacionado a um período determinado de tempo, pois terá uma chave de tempo que irá indicar o dia no qual esses dados foram extraídos.

QUESTÃO ERRADA: Data warehouse é um repositório de dados dinâmico, que sofre alterações frequentes, de modo a permitir que sejam feitas consultas em base de dados constantemente atualizada.

A questão peca em colocar que data warehouse “sofre alterações frequentes” (volátil), haja vista que, uma base modificável deixa de ser uma Data Warehouse. O que faz a leitura dessa base histórica e inalterável é chamado de OLAP, nada mais do que um processador das informações contidas na Data Warehouse.

Diferente do Big Data que se baseia em grande volume de dados, voláteis ou não, com maior velocidade. E também em vez de criar um subconjunto limpo de dados do utilizador para os colocar numa “data warehouse” e serem consultados a partir de um número limitado de formas pré-determinadas, o software de Big Data recolhe todos os dados que uma organização gera e permite que os administradores e analistas se preocupem em como usá-los mais tarde. Neste sentido são mais escaláveis do que os bancos de dados tradicionais e as “datas warehouses”.

Advertisement

Date warehouse – é baseado na integração de assunto (que também carece semântica = significado), variável em relação ao tempo e para tomada de decisão (fato que o Big Data também trabalha).

Big Data – está baseado em grande volume de dados e velocidade.

QUESTÃO ERRADA: Comparados aos bancos de dados transacionais, os data warehouses são mais voláteis porque, para que se mantenham consistentes, são atualizados em tempo real a cada atualização que ocorrer em qualquer uma das bases originais de dados que o componham.

QUESTÃO CERTA: No contexto da modelagem dimensional, um depósito de dados digitais serve para armazenar informações detalhadas relativamente a uma empresa, criando e organizando relatórios por meio de históricos que são posteriormente utilizados pela empresa para ajudar na tomada de decisões. É orientado por assunto, integrado, não volátil, variável com o tempo, e empregado no apoio às decisões gerenciais. Esse depósito de dados está diretamente relacionado ao seguinte conceito: DATAWAREHOUSE.

QUESTÃO ERRADA: O data warehouse é integrado, não volátil e orientado a assuntos, contudo, embora lide com dados e os armazene para a tomada de decisões gerenciadas, não é considerado um banco de dados, pois é variável em relação ao tempo.

O erro está em afirmar que o DW não é considerado um banco de dados. Segundo Date (2004), Data Warehouse é um depósito de dados orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões gerenciais.

QUESTÃO CERTA: Data warehouse tem por característica ser: orientado a assuntos.

QUESTÃO CERTA: A sociedade moderna dispõe de uma infinidade de dados e informações acerca dos mais variados temas do conhecimento. Assim, um relatório de análise ganha importância no mundo corporativo moderno, pois as informações armazenadas em grandes bancos de dados ou em data warehouses apontam para a: necessidade de se utilizar de um modelo adequado de análise para a tomada de decisão em cada caso da ação gerencial, uma vez que os dados e (ou) informações em um relatório gerencial deverão ser usados para embasar uma conclusão.

QUESTÃO ERRADA: Data warehouse é um repositório de dados dinâmico, que sofre alterações frequentes, de modo a permitir que sejam feitas consultas em base de dados constantemente atualizada.

Negativo. Quatro características do DW: não-volátil, integrado, variante no tempo e orientado por assuntos.

QUESTÃO CERTA: Em um Data Warehouse (armazém de dados) que apresente a característica de ser não volátil, os dados não são atualizados após a inserção inicial.

QUESTÃO ERRADA: Em uma arquitetura de data warehouse em três camadas, a única finalidade da consolidação de dados é a solução de diferenças semânticas existentes entre os dados operacionais.

De acordo com definição e a finalidade de um DW podemos dizer que a resposta da questão é errada, pois a finalidade da consolidação dos dados é unir os diferentes dados de diferentes bases e sistemas em uma única base para o auxílio da tomada de decisões, não apenas para a solução de diferenças semânticas existentes entre os dados.

QUESTÃO ERRADA: Os data warehouses são depósitos de dados tipicamente direcionados para aplicações de apoio às decisões administrativas. As informações em data warehouses mudam mais frequentemente do que em bancos de dados convencionais. Além disso, os data warehouse, em vez de otimizar a recuperação de dados, otimizam o processamento de transações.

Os dados em um DW não são voláteis.

QUESTÃO ERRADA: Em comparação com o ambiente transacional, o ambiente de data warehouse, devido à carga de dados com o ETL, deve estar mais voltado para inserção e atualização de dados do que para consultas.

É o contrário, deve estar mais voltado para consultas.

QUESTÃO CERTA: O data warehouse empresarial, ou EDW (enterprise data warehouse), é uma das aplicações do data warehouse que permite a integração em larga escala de dados oriundos de diversas fontes em formato padronizado, para subsidiar a inteligência de negócios.

Sim, eles trabalham apenas com dados estruturados.