O Que É CRISP-DM? (Definição e Exemplos)

0
13261

Última Atualização 3 de janeiro de 2025

Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia especificamente desenhada para processos de mineração de dados.

CEBRASPE (2016):

QUESTÃO ERRADA: CRISP-DM é uma metodologia proprietária que identifica as fases Business Understanding e Data Understanding na implantação de um projeto de data mining.

CRISP-DM é a abreviação de CRoss Industry Standard Process for Data Mining, que pode ser traduzido como Processo Padrão Inter-Indústrias para Mineração de Dados. É um modelo de processo de mineração de dados que descreve abordagens comumente usadas por especialistas em mineração de dados para atacar problemas.

Antes de preparar os dados os mesmos precisam ser entendidos. As duas primeiras fases do CRISP-DM são mesmo compreensão do negócio e compreensão dos dados. A preparação dos dados entra apenas como uma terceira fase no processo.

O CRISP-DM é um modelo de mineração de dados (não-proprietário) utilizado para guiar os esforços de Data Mining nas empresas.

IBFC (2012):

QUESTÃO CERTA: Conforme o modelo CRISP-DM o ciclo de vida de um projeto de mineração de dados consiste de 6 (seis) fases que são: Compreensão do Negócio, Compreensão dos Dados, Preparação dos Dados, Modelagem, Avaliação e Desenvolvimento.

1- Entender o Negócio: foca em entender o objetivo do projeto a partir de uma perspectiva de negócios, definindo um plano preliminar para atingir os objetivos.

2- Entender os Dados: recolhimento de dados e início de atividades para familiarização com os dados, identificando problemas ou conjuntos interessantes.

3- Preparação dos Dados: construção do conjunto de dados final a partir dos dados iniciais. Normalmente ocorre várias vezes no processo.

4- Modelagem: várias técnicas de modelagem são aplicadas, e seus parâmetros calibrados para otimização. Assim, é comum retornar à Preparação dos Dados durante essa fase.

5- Avaliação: é construído um modelo que parece ter grande qualidade de uma perspectiva de análise de dados. No entanto, é necessário verificar se o modelo atinge os objetivos do negócio.

6- Desenvolvimento: o conhecimento adquirido pelo modelo é organizado e apresentado de uma maneira que o cliente possa utilizar.

CEBRASPE (2018):

QUESTÃO CERTA: A verificação da qualidade dos dados é uma atividade da fase de entendimento dos dados.

CEBRASPE (2021):

QUESTÃO CERTA: A fase de implantação do CRISP-DM (cross industry standard process for data mining) só deve ocorrer após a avaliação do modelo construído para atingir os objetivos do negócio.

CEBRASPE (2017):

QUESTÃO ERRADA: Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes.

Observe que a banca misturou conceitos das fases 1 e 2 no enunciado da questão. Durante a fase de entendimento do negócio, busca-se descrever claramente o problema, e na fase de entender os dados é possível fazer a identificação dos dados e verificar se as variáveis relevantes para o projeto não são interdependentes. Portanto, a assertiva está errada.

FCC (2018):

QUESTÃO CERTA: O modelo de referência CRISP-DM tem seu ciclo de vida estruturado nas seguintes 6 fases: Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Implantação.

Fases do CRISP-DM

Entender o Negócio: foca em entender o objetivo do projeto a partir de uma perspectiva de negócios, definindo um plano preliminar para atingir os objetivos.

Entender os Dados: recolhimento de dados e início de atividades para familiarização com os dados, identificando problemas ou conjuntos interessantes.

Preparação dos Dados: construção do conjunto de dados final a partir dos dados iniciais. Normalmente ocorre várias vezes no processo.

Modelagem: várias técnicas de modelagem são aplicadas, e seus parâmetros calibrados para otimização. Assim, é comum retornar à Preparação dos Dados durante essa fase.

Avaliação: é construído um modelo que parece ter grande qualidade de uma perspectiva de análise de dados. No entanto, é necessário verificar se o modelo atinge os objetivos do negócio.

Implantação: o conhecimento adquirido pelo modelo é organizado e apresentado de uma maneira que o cliente possa utilizar.

CEBRASPE (2018):

QUESTÃO ERRADA: CRISP-DM é uma suíte de ferramentas proprietárias que vem se tornando um padrão da indústria para mineração de dados, uma vez que fornece um plano completo e tecnologias para a realização de um projeto de mineração de dados.

Advertisement

Cross Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia especificamente desenhada para processos de mineração de dados.

CEBRASPE (2018):

QUESTÃO ERRADA: Durante a fase de preparação dos dados, é realizado um inventário de requisitos, suposições e restrições de recursos.

Essa é a fase de Entendimento do Negócio.

CEBRASPE (2018):

QUESTÃO ERRADA: Na fase de avaliação dos dados, são realizadas as atividades de identificar valores especiais dos dados e catalogar seu significado.

Essa é a fase de Modelagem.

CEBRASPE (2018):

QUESTÃO ERRADA: Na fase de preparação dos dados, são realizadas as atividades de analisar o potencial de implantação de cada resultado e estimar o potencial de melhoria do processo atual.

Essa é a fase de Avaliação.

CEBRASPE (2015):

QUESTÃO ERRADA: Em um processo de mineração, durante a etapa de preparação dos dados, são analisados os requisitos de negócio para consolidar os dados.

QUESTÃO ERRADA: Na primeira fase do CRISP-DM (cross industry standard process for data mining), há o entendimento dos dados para que se analise a qualidade destes.

CEBRASPE (2022):

QUESTÃO CERTA: Entendimento do negócio e compressão dos dados são algumas das fases do ciclo de vida do modelo de referência CRISP‐DM.

CEBRASPE (2024):

QUESTÃO ERRADA: Na modelagem da metodologia CRISP-DM, métodos como validação cruzada e métricas de desempenho são empregados para se avaliar o quão bem os modelos se saem em dados não vistos. 

A associação de validação cruzada e métricas de desempenho com a fase de modelagem no contexto do CRISP-DM é, de fato, um erro conceitual.

CRISP-DM (Cross-Industry Standard Process for Data Mining) possui as seguintes etapas:

  1. Compreensão do negócio
  2. Compreensão dos dados
  3. Preparação dos dados
  4. Modelagem
  5. Avaliação
  6. Implantação

Esclarecimento sobre a fase de modelagem:

Na fase de modelagem, o foco principal é construir os modelos de dados. Nessa etapa, são escolhidos os algoritmos de mineração de dados (como regressão, árvores de decisão, redes neurais, etc.) e ajustados os parâmetros dos modelos. O objetivo é criar os modelos, sem ainda realizar uma avaliação detalhada de seu desempenho.

Esclarecimento sobre a fase de avaliação:

A avaliação ocorre após a modelagem, onde as métricas de desempenho e técnicas como validação cruzada são aplicadas para avaliar como o modelo se comporta em dados não vistos. Nessa etapa, verifica-se se o modelo é capaz de generalizar bem para novos dados, usando métricas como precisão, recall, F1-score, acurácia, entre outras. A validação cruzada também é uma técnica usada para garantir que os modelos não estão se ajustando demais aos dados de treinamento (overfitting).

Portanto, a validação cruzada e as métricas de desempenho são técnicas da fase de avaliação, não da fase de modelagem, como estava implícito na questão original.