Todos os projetos

03 · Dados Públicos · Projeto Autoral

Oito anos de admissões em uma única análise honesta.

Análise exploratória autoral cobrindo 2017 a 2024 do sistema prisional mineiro. Une rigor técnico, limpeza pesada, contextualização histórica, validação de padrões, com olhar crítico sobre desigualdades sociais que os dados deixam explícitas.

PapelAnalista autoral
Período2025
TipoEDA · Dados abertos
StackPython · Pandas · Seaborn
Admissões anuais, sistema prisional MG 2017 a 2024 · 284 mil registros após limpeza 2020 · -14% (pandemia) 2017 2018 2019 2020 2021 2022 2023 2024

Contexto

O sistema prisional brasileiro publica dados abertos via DEPEN e secretarias estaduais. São dados pesados , tanto pela quantidade quanto pelo conteúdo. Decidi trabalhar com a série histórica de Minas Gerais (2017-2024) por ser o estado em que vivo e por dispor de cobertura temporal contínua.

Problema

Construir uma análise exploratória que respeite a complexidade do tema e ao mesmo tempo produza visualizações comunicáveis: o que os dados dizem sobre quem entra no sistema, quando, e como esse fluxo se comportou ao longo de quase uma década?

Abordagem

  • Auditoria do dataset bruto: 328 mil registros, com inconsistências de schema entre anos.
  • Deduplicação criteriosa: 44 mil duplicatas removidas (13% do total).
  • Padronização de variáveis categóricas: escolaridade, cor/raça, gênero.
  • Análise temporal: variação anual com contextualização (pandemia, mudanças de política).
  • Análise demográfica: distribuições por gênero, idade, escolaridade.

Achados-chave

284k
Registros limpos (de 328 mil)
95,78%
Da população é masculina
60%+
Têm baixa escolaridade

O que os dados deixam explícito

  • Queda de -14% em 2020: alinhada às políticas de redução de presos provisórios durante a pandemia.
  • Concentração extrema em baixa escolaridade: mais de 60% das admissões têm até o ensino fundamental incompleto.
  • População quase exclusivamente masculina (95,78%), com perfil etário concentrado entre 18 e 34 anos.
  • Recuperação pós-pandemia gradual mas sem retomar exatamente o patamar pré-2020.

Conclusões

Os dados confirmam o que estudos qualitativos da área já mostravam: o sistema prisional é, na prática, um recorte demográfico bastante específico, homens jovens com baixa escolaridade. A análise quantitativa dá magnitude ao que estudos sociológicos já mapearam.

Este projeto não tem ambição prescritiva, ele é exploratório por natureza. O valor está em transformar dados públicos brutos, dispersos em planilhas anuais, em uma narrativa visual coerente sobre quase uma década do sistema.

Stack

Python Pandas NumPy Seaborn Matplotlib Dados Abertos EDA

Aprendizados

Dado público raramente vem limpo. 13% do dataset inicial era duplicata. Sem deduplicação, toda análise estaria contaminada. O cuidado na fase de limpeza define a confiabilidade de tudo que vem depois.

Outro aprendizado: análise quantitativa de tema sensível exige sobriedade visual. Optei por paleta neutra, anotações contextuais (a marcação de 2020 com pandemia) e títulos descritivos em vez de interpretativos. Os dados falam, eu só organizo.