Última Atualização 13 de janeiro de 2021
Um dos passos do processo de KDD, o de extração de padrões (ou Mineração de dados), utiliza métodos de Aprendizado de Máquina para encontrar regularidades, padrões ou conjuntos de dados. Técnicas desenvolvidas em Aprendizado de Máquinas, como a Introdução de Regras e de árvores de Decisão, Modelos Conexionistas e o Aprendizado Baseado em Instâncias, formam o núcleo dos métodos utilizados em Mineração de Dados.
O Aprendizado de Máquina tem como objetivo desenvolver técnicas computacionais sobre o aprendizado bem como a construção de sistemas capazes de adquirir conhecimento de forma automática. O Aprendizado de Máquina pode ser dividido em supervisionado e não-supervisionado. No aprendizado supervisionado é fornecido ao algoritmo de aprendizado, ou indutor, um conjunto de treinamento para os quais o rótulo da classe associada é conhecido. O objetivo do algoritmo é construir um classificador que possa determinar corretamente a classe de novos exemplos ainda não rotulados. Para valores de classes discretos, esse problema é conhecido como Classificação e para valores contínuos como Regressão. No aprendizado não-supervisionado, o indutor analisa os exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira, formando agrupamentos ou clusters. Cabe ressaltar que na literatura o Aprendizado de Máquina é considerado uma das áreas de IA.
Um sistema de Aprendizado de Máquina (AM) é um programa de computador que toma decisões baseado em experiências acumuladas por meio da solução bem-sucedida de problemas anteriores. Os diversos sistemas de AM possuem características particulares e comuns que possibilitam sua classificação quanto à linguagem de descrição, modo, paradigma e forma de aprendizado utilizado.
O AM é uma poderosa ferramenta para aquisição automática de conhecimento, porém deve-se observar que não existe um único algoritmo que apresente o melhor desempenho para todos os problemas. É importante compreender a abrangência e a limitação dos diversos algoritmos de AM utilizando alguma metodologia que permita avaliar os conceitos induzidos por esses algoritmos em determinados problemas [Rezende 2003].
Hierarquia do Aprendizado
A indução é a forma de inferência lógica que permite obter conclusões genéricas sobre um conjunto particular de exemplos. Ela é caracterizada pelo raciocínio originado em um conceito específico e generalizado, ou seja, da parte para o todo. Na indução, um conceito é aprendido efetuando-se inferência indutiva sobre os exemplos apresentados. Portanto, as hipóteses geradas através da inferência indutiva podem ou não preservar a verdade [Rezende 2003].
A inferência indutiva é um dos principais métodos utilizados para derivar conhecimento novo e predizer eventos futuros. Porém, deve-se utiliza-la com cuidado, pois se o número de exemplos for insuficiente, ou não forem bem escolhidos, as hipóteses podem ser de pouco valor.
O aprendizado indutivo pode ser dividido em supervisionado e não-supervisionado. No aprendizado supervisionado é fornecido ao algoritmo de aprendizado, ou indutor, um conjunto de exemplos de treinamento para os quais o rótulo da classe associada é conhecido. Cada exemplo é descrito por um vetor de atributos e pelo rótulo da classe associada. Para rótulos de classe discretos, temos a classificação e para rótulos contínuos temos a regressão.
No aprendizado não-supervisionado, o indutor analisa os exemplos e tenta determinar se alguns deles podem ser agrupados, formando clusters ou agrupamentos. Após determinar os agrupamentos, geralmente, é necessária uma análise para determinar o que cada agrupamento significa no contexto do problema que está sendo analisado. Na figura 3 é mostrada a hierarquia do aprendizado.
Figura 3 – Hierarquia do Aprendizado.
Fonte: baseado em Rezende, 2003, p. 97.
Paradigmas de Aprendizado
São vários os paradigmas de AM, entre eles: Simbólico, Estatístico, Baseado em Exemplos (Instance Based), Conexionista e Evolutivo, que serão descritos resumidamente a seguir.
Simbólico
Buscam aprender construindo representações simbólicas de um conceito através da análise de exemplos e contra-exemplos desse conceito. As representações simbólicas estão na forma de algumas expressões lógicas, árvores de decisão, regras ou rede semântica. As Árvores de Decisão serão abordadas mais detalhadamente neste trabalho.
Estatístico
São utilizados modelos estatísticos para encontrar uma boa aproximação do conceito induzido. Vários métodos estatísticos de classificação são paramétricos, assumindo algum modelo, e então encontrando valores apropriados para os parâmetros do modelo a partir dos dados. Por exemplo, um classificador linear assume que as classes podem ser expressas como combinação linear dos valores dos atributos, e então encontra uma combinação linear particular que fornece a melhor aproximação sobre o conjunto de dados [Rezende 2003].
Alguns autores consideram Redes Neurais como métodos estatísticos paramétricos, uma vez que treinar uma Rede Neural geralmente significa encontrar valores apropriados para pesos e funções de ativação (bias) predeterminados.
Baseado em Exemplos (Instance Based)
Classificam exemplos nunca vistos por meio de exemplos similares conhecidos, ou seja, a idéia é assumir que o novo exemplo terá a mesma classe do exemplo similiar. Esse tipo de aprendizado é denominado lazy (preguiçoso), pois precisa manter os exemplos na memória para classificar novos exemplos, saber quais exemplos (casos) de treinamento devem ser memorizados é muito importante. Ao contrário dos sistemas lazy, temos os sistemas eager (gulosos), que utilizam os exemplos para induzir um modelo, descartando os exemplos logo em seguida. Técnicas mais conhecidas: Nearest Neighbours e Raciocínio Baseado em Casos (RBC).
Conexionista
Redes Neurais (RN) são construções matemáticas inspiradas no modelo biológico. A representação de uma RN envolve unidades altamente interconectadas e, por isso, o termo conexionismo é utilizado para descrever a área de estudo. As Redes Neurais serão abordadas mais detalhadamente neste trabalho.
Evolutivo
Um classificador evolutivo consiste de uma população de elementos de classificação que competem para fazer a predição. Elementos “fracos” são descartados, enquanto os elementos mais “fortes” proliferam, produzindo variações de si mesmos. Esse paradigma possui uma analogia direta com a teoria da evolução de Darwin, na qual sobrevivem os mais bem adaptados ao ambiente, daí o nome “Computação Evolutiva”.