Contexto
O sistema prisional brasileiro publica dados abertos via DEPEN e secretarias estaduais. São dados pesados , tanto pela quantidade quanto pelo conteúdo. Decidi trabalhar com a série histórica de Minas Gerais (2017-2024) por ser o estado em que vivo e por dispor de cobertura temporal contínua.
Problema
Construir uma análise exploratória que respeite a complexidade do tema e ao mesmo tempo produza visualizações comunicáveis: o que os dados dizem sobre quem entra no sistema, quando, e como esse fluxo se comportou ao longo de quase uma década?
Abordagem
- Auditoria do dataset bruto: 328 mil registros, com inconsistências de schema entre anos.
- Deduplicação criteriosa: 44 mil duplicatas removidas (13% do total).
- Padronização de variáveis categóricas: escolaridade, cor/raça, gênero.
- Análise temporal: variação anual com contextualização (pandemia, mudanças de política).
- Análise demográfica: distribuições por gênero, idade, escolaridade.
Achados-chave
O que os dados deixam explícito
- Queda de -14% em 2020: alinhada às políticas de redução de presos provisórios durante a pandemia.
- Concentração extrema em baixa escolaridade: mais de 60% das admissões têm até o ensino fundamental incompleto.
- População quase exclusivamente masculina (95,78%), com perfil etário concentrado entre 18 e 34 anos.
- Recuperação pós-pandemia gradual mas sem retomar exatamente o patamar pré-2020.
Conclusões
Os dados confirmam o que estudos qualitativos da área já mostravam: o sistema prisional é, na prática, um recorte demográfico bastante específico, homens jovens com baixa escolaridade. A análise quantitativa dá magnitude ao que estudos sociológicos já mapearam.
Este projeto não tem ambição prescritiva, ele é exploratório por natureza. O valor está em transformar dados públicos brutos, dispersos em planilhas anuais, em uma narrativa visual coerente sobre quase uma década do sistema.
Stack
Aprendizados
Dado público raramente vem limpo. 13% do dataset inicial era duplicata. Sem deduplicação, toda análise estaria contaminada. O cuidado na fase de limpeza define a confiabilidade de tudo que vem depois.
Outro aprendizado: análise quantitativa de tema sensível exige sobriedade visual. Optei por paleta neutra, anotações contextuais (a marcação de 2020 com pandemia) e títulos descritivos em vez de interpretativos. Os dados falam, eu só organizo.