Churn com ML · Case · Danielli Arçari

Contexto

Análise descritiva responde "o que aconteceu". Análise preditiva responde "o que vai acontecer". Depois de mapear churn na fase exploratória, o próximo movimento é antecipar o cliente que vai sair , enquanto ainda dá tempo de agir.

Problema

Construir um classificador binário que, dadas as variáveis comportamentais e contratuais do cliente, retorne a probabilidade dele cancelar nos próximos meses. Métrica prioritária: recall sobre churn , é mais caro deixar um cancelamento passar do que disparar um alerta falso.

Abordagem

Pré-processamento: encoding de variáveis categóricas, tratamento de desbalanceamento de classes.
Split estratificado: 70/30 preservando proporção da variável alvo.
Comparação de baseline: Logistic Regression, Decision Tree, Random Forest, KNN.
Avaliação criteriosa: acurácia não é o foco; recall, precisão e F1 sobre a classe minoritária (churn) são.
Análise de feature importance: quais variáveis o modelo aprendeu a usar?

Resultados

82%

Acurácia geral · Random Forest

67%

Recall sobre churn (a métrica que importa)

Variáveis dominantes: contrato, tenure, pagamento

O que aprendi com os modelos

Random Forest superou os baselines em recall sobre a classe minoritária, métrica que importa em retenção.
As três variáveis dominantes coincidem com os achados da fase exploratória: tipo de contrato, tempo de permanência, forma de pagamento.
Desbalanceamento de classes era real: sem tratá-lo, todos os modelos caíam em "prever sempre não-churn" e ainda assim ter 73% de acurácia.
Trade-off recall × precisão explícito: apresentei matriz de confusão para o decisor escolher onde calibrar o threshold.

Decisão

O modelo final não é "o mais acurado". É o que melhor responde à pergunta de negócio: dado o custo de um cancelamento, quanto vale um alarme falso? A escolha do threshold passou a ser deliberada, não default.

Entreguei o pipeline completo, pré-processamento, treino, avaliação, persistência, com documentação explicando como recalibrar o threshold conforme o orçamento de retenção mude.

Stack

Aprendizados

O aprendizado mais importante deste projeto foi tirar acurácia do pedestal. Em classes desbalanceadas, acurácia mente, um modelo burro que prediz sempre a classe majoritária pode ter 70%+ de acurácia. Recall, precisão e F1 contam a história real.

Aprendi também que modelo é só metade da resposta. A outra metade é apresentar o trade-off para o decisor: cada falso negativo custa X, cada falso positivo custa Y, e a escolha do threshold de probabilidade deveria refletir essa relação, não ser deixada no default de 0,5.

Ver no GitHub Conversar no LinkedIn

Prever o churn antes que ele aconteça.