Classificação

Por

24 de dezembro de 2020

763

QUESTÃO CERTA: Com o uso da classificação como técnica de Data Mining, busca-se a identificação de uma classe por meio de múltiplos atributos. Essa técnica também pode ser usada em conjunto com outras técnicas de mineração de dados.

Segundo Carlos Barbieri BI2 – Business intelligence pág. 137 “Classificação – São processo que definem agrupamentos de itens em classes, segundo referências estabelecidas. São usados para definir grupos ou classes de elementos, com em certos parâmetros preestabelecidos.”

QUESTÃO CERTA: O datamining é a tarefa de encontrar estruturas interessantes em uma estrutura de dados, por exemplo, padrões estatísticos, modelos preditivos, relacionamentos escondidos etc. Considerando a figura acima, que mostra as áreas relacionadas ao datamining, assinale a opção incorreta:
A classificação encontra agrupamentos naturais de instâncias dado um grupo de dados não-etiquetado.

CLASSIFICAÇÃO: Consiste em examinar as características de um objeto recém apresentados e atribuí-lo a um dos conjuntos predefinidos de classes. A tarefa de classificação é caracterizada por uma definição das classes (1), e conjunto dados para aprendizado (2) pré-classificados.

CLUSTERIZAÇÃO/AGRUPAMENTO: Consiste em identificar agrupamentos de objetos, estes que identificam uma classe. Trabalha sobre dados onde as etiquetas das classes não estão definidas.

QUESTÃO ERRADA: No datamining, o agrupamento e a classificação funcionam de maneira similar: o agrupamento reconhece os padrões que descrevem o grupo ao qual um item pertence, examinando os itens existentes; a classificação é aplicada quando nenhum grupo foi ainda definido.

Conceitos invertidos.

Na classificação você estabelece um modelo com base nos seus dados já classificados para classificar aqueles que ainda não foram (preditiva – supervisionada).

No agrupamento há apenas a separação de dados constantes no seu banco (descritivo – não supervisionada). O objetivo não é classificar novas informações.

QUESTÃO CERTA: Os algoritmos C4.5 e K-Means, muito utilizados para descoberta de conhecimento através de mineração de dados, são algoritmos de respectivamente: classificação e agrupamento (clustering).

Algoritmo C4.5: é um algoritmo utilizado para criar uma árvore de decisão e foi desenvolvido por Ross Quinlan. C4.5 é uma extensão do algoritmo anterior de Quinlan’s ID3. As árvores de decisão geradas pelo algoritmo C4.5 podem ser utilizadas para classificação e são, portanto, conhecidas como classificadores estatísticos.

Algoritmo K-Means: Em mineração de dados, agrupamento k-means é um método de Clustering que objetiva particionar n observações dentre k grupos onde cada observação pertence ao grupo mais próximo da média. Isso resulta em uma divisão do espaço de dados em um Diagrama de Voronoi.

QUESTÃO ERRADA: A técnica de clustering em data mining utiliza os algoritmos ID3 e o C4.5. Esses algoritmos produzem árvores de decisão, o que permite gerar clusters de elementos que, por sua vez, geram mapeamento dos elementos em grupos predefinidos.

Algoritmos ID3 e C4.5 são para árvore de decisão (classificação). K-means, na verdade, que é para clusterização.

QUESTÃO CERTA: a classificação é considerada um exemplo de aprendizado supervisionado, enquanto o agrupamento é considerado exemplo de aprendizado não supervisionado.

QUESTÃO ERRADA: A técnica de classificação em data mining possibilita a definição de classes e o enquadramento de elementos em grupos de afinidades, por meio de avaliação de similaridade entre esses elementos.

Na verdade, a assertiva traduz o conceito geral da técnica de Clustering (agrupamento) e não de Classificação. O objetivo principal de clustering é separar objetos ou observações em classes naturais, de forma que, os elementos pertencentes a um mesmo grupo tenham um alto grau de semelhança ou similaridade, enquanto que, quaisquer elementos pertencentes a grupos distintos, tenham pouca semelhança entre si.

QUESTÃO ERRADA: Classificação é uma importante tarefa utilizada na etapa de mineração de dados, que tem como uma de suas características básicas: poder ser implementada por algoritmos estáveis e de significativa eficácia, tais como C4.5, classificadores bayesianos ou K-Prototypes.

Algoritmos K-Prototypes são usandos para a técnica de Clusterização e não de Classificação.