...

Métricas de ML: Quais Usar para Avaliar Modelos Reais

Métricas de ML: Quais Usar para Avaliar Modelos Reais

Imagine que seu modelo entrega 98% de acurácia e, ainda assim, os clientes continuam insatisfeitos. Métricas não são medalhas: elas são lentes. Escolher a lente errada significa otimizar para o que importa pouco — e pagar caro depois. Neste artigo veremos como decidir entre AUC, F1, precisão, recall e até custo por erro, com exemplos práticos para produção.

Quando a AUC Salva — E Quando Ela Engana

A AUC é ótima para comparar modelos em classes desequilibradas. Ela resume a capacidade do modelo de classificar positivos acima de negativos, independente do limiar. Em diagnósticos médicos ou detecção de fraude, AUC alta é sinal de boa separação. Mas atenção: AUC não diz qual limiar usar em produção. Se o custo de falso negativo for muito alto, uma AUC 0.9 pode ser inútil se o recall real no limiar escolhido for baixo.

F1: O Equilíbrio que Vira Armadilha

F1 combina precisão e recall numa média harmônica. Use F1 quando você quer equilíbrio entre tipos de erro. Problema: F1 trata falso positivo e falso negativo como igualmente caros. Em muitos negócios eles não são. Imagine um sistema de empréstimo — um falso positivo (conceder crédito a quem não devia) pode custar 100x mais que um falso negativo. Nesse caso, otimizar F1 pode ser a escolha errada.

Precisão e Recall: Escolha Conforme o Prejuízo

Precisão e Recall: Escolha Conforme o Prejuízo

Precisão responde: “dos sinais que disparamos, quantos eram reais?” Recall responde: “dos casos reais, quantos pegamos?” Decida pela métrica que reflete o prejuízo do negócio. Em e-mail spam, alta precisão evita bloquear e-mails legítimos. Em detecção de câncer, alto recall evita perder pacientes. Use curvas de precisão-recall para entender trade-offs antes de fixar um limiar.

Custo por Erro: Coloque Dinheiro na Equação

Transformar erros em valores muda tudo. Custo por erro força decisões alinhadas ao caixa. Monte uma matriz de custo simples: custo(FP)=X, custo(FN)=Y. Calcule custo esperado por limiar e escolha o que minimiza perda. Em muitas empresas, essa métrica substitui “acurácia” como objetivo real de produção.

Distribuição dos Dados: Por que Strata Importam

Métricas mudam com a distribuição. Um modelo com bom recall em um conjunto balanceado pode falhar diante de dados reais altamente desbalanceados. Teste métricas por segmento: idade, região, dispositivo. Isso evita surpresas quando o modelo for para produção. Segundo dados do Banco Central, distribuições de comportamento financeiro mudam com crises — e seu modelo precisa refletir isso.

Comparação Prática: Expectativa X Realidade

Expectativa: acurácia 95% → tudo certo. Realidade: 95% porque negativos dominam. Aqui vai a comparação que poucos mostram: antes — otimizar acurácia; depois — otimizar custo por erro e recall por segmento. Essa mudança costuma reduzir perdas reais. Em um caso, trocar objetivo de acurácia para custo por erro cortou chargebacks em 40% no primeiro mês.

O que Evitar: Erros Comuns na Escolha de Métricas

Erros comuns corroem modelos mesmo bons. Liste o que evitar:

  • Otimizar acurácia em classes desbalanceadas.
  • Usar F1 quando custos de erro são assimétricos.
  • Avaliar só em dados de validação sem testes por segmento.
  • Ignorar taxa de falso negativo em problemas críticos.
  • Não simular custos reais antes de lançar o modelo.

Mini-história curta: em uma fintech, um time ignorou recall e priorizou precisão. Resultado: clientes com score baixo eram rejeitados em massa; churn subiu. Ajustar para minimizar custo por erro e aumentar recall em um segmento recuperou 12% da receita perdida.

Para aprofundar a ciência por trás de métricas e trade-offs, leia trabalhos acadêmicos e relatórios confiáveis — por exemplo, estudos publicados em conferências de machine learning e análises de instituições financeiras. Pesquisas relevantes ajudam a validar escolhas técnicas.

Fechamento

Escolher Métricas é escolher o que sua empresa está disposta a aceitar como erro. Troque vaidade por valor: calcule custos, segmente dados, teste limiares e meça impacto no caixa. Quem faz isso primeiro ganha vantagem real.

Como Escolher Entre F1 e AUC para um Problema de Fraude?

Escolher depende do objetivo: AUC indica a capacidade geral de separação entre classes; útil para comparar modelos em fazes iniciais. F1 é bom quando você quer balancear precisão e recall no limiar de decisão. Para fraude, normalmente o custo de falso negativo é alto (perder fraudes), então priorize recall ou uma métrica de custo por erro. Teste AUC para selecionar modelos e depois ajuste limiar com simulações de custo para decidir entre F1, recall ou uma perda monetária real.

Quando Devo Usar Precisão em Vez de Recall?

Use precisão quando falsos positivos geram custos ou incômodos significativos. Por exemplo, em sistemas que acionam humanos (alarmes, revisão manual), muitos falsos positivos aumentam custo operacional e desgaste. Precisão alta reduz esse ruído. Se perder alguns casos for aceitável, priorize precisão. Em resumo: escolha precisão quando cada alarme falso tem custo real; escolha recall quando perder um caso verdadeiro é crítico. Sempre valide com números de negócio antes de decidir.

Como Transformar Erros em Custo por Erro Prático?

Comece mapeando impactos financeiros reais: quanto custa uma rejeição indevida? Quanto perde-se por fraude não detectada? Estime custos diretos (chargebacks, reprocessamento) e indiretos (reputação, churn). Atribua valores a FP e FN e construa uma função de custo por limiar. Simule essa função sobre a distribuição de scores do modelo para encontrar o limiar que minimiza custo esperado. Revisite esses valores periodicamente, pois custos mudam com produto e mercado.

Como Métricas Mudam com Dados Desbalanceados?

Em dados desbalanceados, métricas globais como acurácia ficam enganosas porque o modelo pode acertar sempre a classe majoritária. AUC e curvas de precisão-recall são mais informativas. Avalie por segmento e use amostragem estratificada para validação. Além disso, calcule métricas condicionais (por exemplo, recall por classe minoritária) e simule impacto no negócio. Ajustes em limiar e custos podem compensar desbalanceamento sem alterar a distribuição real que o modelo verá em produção.

Como Validar Métricas Antes de Levar o Modelo para Produção?

Valide com dados que refletem produção: amostras temporais recentes, segmentos-chave e cenários de comportamento extremo. Faça testes A/B ou canary releases para medir impacto real em KPIs de negócio, não apenas métricas técnicas. Simule custos por erro e rastreie métricas secundárias (latência, interpretabilidade). Documente decisões de métrica e limiar, e estabeleça monitoramento contínuo para detectar deriva de dados e desempenho. Isso evita surpresas e garante que a métrica escolhida permaneça alinhada ao objetivo.