Caderno de Prova

Técnicas

• Regras de Associação: identificação de grupos de dados que apresentam co-ocorrência entre si (ex. cesta de compras).

• Regressão ou Predição: aprendizado de uma função que pode ser usada para mapear os valores associados aos dados em um ou mais valores reais

• Agrupamento (ou clustering): identificação de grupos de dados onde os dados têm características semelhantes aos do mesmo grupo e onde os grupos tenham características diferentes entre si.

• Classificação: aprendizado de uma função que pode ser usada para mapear dados em uma de várias classes discretas definidas previamente.

QUESTÃO CERTA: Um famoso site de vendas sempre envia ao cliente que acabou de comprar um item X, ou o está analisando, a seguinte frase: Pessoas que compraram o item X também compraram o Y. Para isso, o site deve estar aplicando a técnica de Data Mining denominada: coocorrência.

Coocorrência = ocorrência simultânea. Ou seja, se X acontece, Y acontece também. Regra de Associação.

Coocorrência = Regras de Associação

Técnicas de mineração de dados:

Classificação

Consiste em construir um modelo de algum tipo que possa ser aplicado a dados não classificados visando categorizá-los em classes. Lida com resultados discretos. Exemplo: identificar a forma de tratamento na qual um paciente está mais propício a responder, baseando-se em classes de pacientes que respondem bem a determinado tipo de tratamento médico.

 

Estimativa (ou regressão)

É usada para definir um valor para alguma variável contínua desconhecida como, por exemplo, receita, altura ou saldo de cartão de crédito. Lida com resultados contínuos. 

Advertisement

 

Associação

Consiste em identificar e descrever associações entre variáveis no mesmo item ou associações entre itens diferentes que ocorram simultaneamente, de forma freqüente em banco de dados. É também comum a procura de associações entre itens durante um intervalo temporal.

O exemplo clássico é determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado.

 

Segmentação (ou Clustering/Clusterização)

É utilizada para separar os registros de uma base de dados em subconjuntos ou clusters (agrupamentos), de tal forma que os elementos de um cluster compartilhem propriedades comuns, que servem para distinguir os elementos em outros  clusters, tendo como objetivo maximizar similaridade intra-cluster e minimizar similaridade inter-cluster. Exemplo: Clientes por região de um país.

 

Sumarização

A sumarização procura identificar e indicar características comuns entre um conjunto de dados. Essa tarefa é aplicada nos agrupamentos obtidos na tarefa de segmentação. Exemplo: Tabular o significado e desvios padrão para todos os itens de dados.

Advertisement
Sair da versão mobile