Caderno de Prova

Ciência de Dados: para que servem as Variáveis Dummy?

CEBRASPE (2022):

QUESTÃO CERTA: Em um processo em que se utiliza a ciência de dados, o número de variáveis necessárias para a realização da investigação de um fenômeno é direta e simplesmente igual ao número de variáveis utilizadas para mensurar as respectivas características desejadas; entretanto, é diferente o procedimento para determinar o número de variáveis explicativas, cujos dados estejam em escalas qualitativas. Considerando esse aspecto dos modelos de regressão, julgue o item a seguir. Para evitar um erro de ponderação arbitrária, deve-se recorrer ao artifício de uso de variáveis dummy, o que permitirá a estratificação da amostra da maneira que for definido um determinado critério, evento ou atributo, para então serem inseridas no modelo em análise; isso permitirá o estudo da relação entre o comportamento de determinada variável explicativa qualitativa e o fenômeno em questão, representado pela variável dependente.

O uso de variáveis dummy é uma prática comum em modelos de regressão para lidar com variáveis qualitativas (categóricas). Isso ocorre porque essas variáveis, por si só, não podem ser interpretadas diretamente pelo modelo, que geralmente requer variáveis numéricas. Ao criar dummies, cada categoria de uma variável qualitativa é representada por uma variável binária (0 ou 1), o que permite estratificar a amostra e analisar o impacto específico de cada categoria sobre a variável dependente.

Esse processo evita ponderações arbitrárias e possibilita o estudo da relação entre uma variável explicativa qualitativa e o fenômeno em análise.

Advertisement
Sair da versão mobile