Pense numa redação de jornal. O editor-chefe não sai correndo atrás de cada fonte: ele lê, decide a pauta, distribui e fecha a edição. Quem vai à rua, transcreve entrevista e revisa ortografia é a equipe — gente boa, mais barata, em maior número. Se o chefe fosse fazer tudo, a folha de pagamento explodia e o jornal sairia atrasado. Subagentes funcionam igual: deixe um modelo caro pensar e uma frota barata trabalhar. A economia não está em cortar qualidade — está em colocar cada modelo onde ele rende.
↑ O desenho da economia: 1 chefe caro decide, uma frota barata executa em paralelo, o chefe fecha a edição.
Conteúdo detalhado
🏛️ O chefe esperto e a frota barata
O desenho que economiza dinheiro tem dois papéis. No topo, um modelo caro — Opus ou Sonnet — que pensa: lê o problema, faz o plano, distribui as tarefas e junta tudo no fim. Embaixo, uma frota de modelos baratos — Haiku — que faz o trabalho pesado: escaneia, busca, lê arquivo, resume. Você paga o caro uma vez, para a parte difícil, e o barato muitas vezes, para a parte mecânica.
📰 A analogia da redação
O editor-chefe define a pauta e fecha a edição — é insubstituível, mas é um só. A reportagem, a transcrição e a revisão ortográfica vão para a equipe: barata, numerosa, rápida. Ninguém põe o editor-chefe para transcrever áudio de duas horas. Com subagentes é a mesma divisão:
- •Chefe (Opus/Sonnet) = decide, planeja, sintetiza. Caro — use pouco e bem.
- •Frota (Haiku) = escaneia, busca, lê, resume. Barata — use à vontade, em paralelo.
- •O erro = pôr o chefe para fazer trabalho de frota — ou a frota para decidir.
Um padrão de orquestração hierárquica: um modelo forte coordena; muitos modelos baratos executam o grosso do trabalho em paralelo.
É o que separa "subagente é caro demais" de "subagente sai barato". A conta muda completamente quando o trabalho pesado roda no modelo barato.
Fan-out hierárquico · chefe (raciocínio) × frota (execução) · pagar o caro 1×, o barato N×.
🎚️ A chave-mestra: CLAUDE_CODE_SUBAGENT_MODEL
Você pode definir o modelo de cada subagente um a um, no campo
model do arquivo. Mas quando quer que toda a frota
rode barato de uma vez, existe um atalho: a variável de ambiente
CLAUDE_CODE_SUBAGENT_MODEL. Ela define o modelo
padrão de todos os subagentes que não fixaram um modelo próprio — sem você tocar em
cada arquivo.
# toda a frota de subagentes passa a rodar em Haiku
export CLAUDE_CODE_SUBAGENT_MODEL=claude-haiku-4-5
# abra o Claude Code já com a frota barata ligada
claude
# o chefe (a sessão principal) continua no modelo que
# você escolheu — só os subagentes herdam o Haiku.
🎯 Quem manda em quem
- model no arquivo do agente — vence sempre (específico).
- CLAUDE_CODE_SUBAGENT_MODEL — padrão para os que não fixaram modelo.
- inherit — sem nenhum dos dois, o agente herda o modelo do chefe.
💡 A jogada da casa
Mantenha o chefe em Opus/Sonnet e jogue toda a frota em Haiku com a env var. Uma linha, e a parte cara do sistema vira só o cérebro — não os músculos.
🛑 maxTurns: a corda de segurança do gasto
O custo que assusta não é o subagente que faz o trabalho — é o subagente que
entra em loop: tenta, falha, tenta de novo, e fica rodando às suas custas. O
maxTurns é o teto de quantos passos (turnos de ferramenta) um subagente pode dar antes de
parar. É um disjuntor: estourou o limite, desliga — em vez de queimar tokens a noite
inteira.
✗ Sem teto de turnos
- ✗Um agente travado tenta a mesma coisa 40 vezes
- ✗A conta sobe sem ninguém olhando
- ✗O loop só aparece quando a fatura chega
✓ Com maxTurns
- ✓Bate no teto, para e devolve o que tem
- ✓O gasto máximo por subagente fica previsível
- ✓O chefe percebe que travou e decide o próximo passo
📊 Como dimensionar o teto
Uma tarefa de leitura/resumo costuma fechar em poucos turnos. Se você espera ~10 passos, um teto de 15–20 dá folga sem deixar o loop livre. Frota barata pode ter teto curto (tarefa simples); o chefe, que faz mais idas e voltas, merece um teto maior. Sem teto = aposta aberta.
📈 Multiagente custa ~15× — e quando isso vale
Não tem mágica: rodar uma frota de subagentes consome muito mais tokens que uma única conversa — na ordem de ~15×. Cada subagente começa do zero e reúne o próprio contexto antes de produzir. Isso não é desperdício automático: é o preço do paralelismo e do contexto limpo. A pergunta certa não é "é caro?", e sim "o que eu ganho que compensa esse 15×?".
↑ Recriação ilustrativa, não medição real. A proporção existe para fixar a ordem de grandeza.
✓ Quando o 15× compensa
- ✓O trabalho é grande (dezenas de arquivos, muita leitura)
- ✓O material é ruidoso e você só quer a conclusão limpa
- ✓Dá para paralelizar e ganhar tempo de parede
- ✓Proteger o seu contexto vale o gasto extra de tokens
✗ Quando é só desperdício
- ✗Uma edição de 30 segundos num arquivo só
- ✗Algo que depende da conversa inteira que você já tem
- ✗Tarefa pequena, sem leitura pesada nem paralelismo
- ✗Pagar 15× para montar contexto que já estava na sua mão
🧩 Combinar bem > gastar muito
O instinto errado é "se está caro, é porque preciso de um modelo mais forte". Quase nunca. O ganho real vem de combinar: o modelo certo no papel certo, o teto certo, o paralelismo certo. Uma frota Haiku bem orquestrada por um chefe Sonnet entrega mais por menos do que tudo em Opus. Arquitetura vence força bruta.
💡 Antes de subir o modelo, ajuste o desenho
Travou ou ficou caro? Antes de trocar Haiku por Opus em tudo, pergunte: dá para paralelizar? O briefing está claro (menos idas e voltas)? O teto está sufocando uma tarefa que precisava de mais? Na maioria das vezes o problema é de arquitetura, não de modelo.
🔭 Medir e observar: você não corta o que não vê
Economia de verdade exige olhar para o gasto. Quanto cada subagente consumiu? Qual deles bateu no teto? Onde o tempo foi embora? Sem observar, você otimiza no escuro — corta o que era barato e deixa rodando o caro. Meça primeiro, ajuste depois: é assim que a divisão chefe/frota deixa de ser palpite e vira número.
Observe uma rodada real
Rode o trabalho como está hoje.
Veja por subagente: modelo usado, tokens consumidos, turnos gastos, quem bateu no teto.
Ache o ofensor
O gasto raramente está espalhado por igual.
Quase sempre um agente caro fazendo trabalho de frota, ou um loop sem teto, responde pela maior parte da conta.
Ajuste um parâmetro e remeça
Uma mudança de cada vez.
Baixe o modelo de um agente, ponha um teto, paralelize — e compare a nova rodada com a anterior. Repita.
Exemplo real: um agente de frota com model + maxTurns
Os dois controles deste módulo cabem no frontmatter de um único arquivo
.md: model diz quem faz (modelo barato), e
maxTurns diz até onde ele pode ir antes de parar. Este
log-scanner.md é um trabalhador de frota típico: barato, read-only, com teto.
--- # frontmatter: a CONFIGURAÇÃO do subagente
name: log-scanner # minúsculas e hífens
description: Vasculha logs e arquivos grandes em
busca de erros e devolve só um resumo. Use para
varreduras pesadas. # o GATILHO
tools: Read, Grep, Glob # só leitura: trabalho de frota
model: haiku # BARATO — é a frota, não o chefe
maxTurns: 12 # TETO — disjuntor contra loop
---
# corpo: o CÉREBRO do subagente
You are a fast log scanner.
When invoked:
1. Grep the given files for errors and warnings.
2. Group what you find by type and file.
3. Stop as soon as you have the summary.
Return: a short report — counts per error type
and the 3 files with the most issues. Nothing else.
Do not open files line by line; do not loop.
💵 model: haiku
- É a frota — tarefa mecânica de varredura.
- Barato por chamada — pode rodar em paralelo, em massa.
- Vence a env var — modelo fixo no arquivo manda.
- Read-only — sem ferramenta de escrita, sem estrago.
🛑 maxTurns: 12
- Teto de passos — para mesmo se não "terminou".
- Curto de propósito — varredura não precisa de muitos turnos.
- Custo previsível — gasto máximo conhecido por chamada.
- Mata o loop — o pior cenário de conta nunca acontece.
Prompts prontos (copie e cole)
Três prompts para aplicar a economia agora: ligar a frota barata, pôr teto contra loop e desenhar a divisão chefe/frota antes de gastar. Repare no padrão: modelo certo no papel certo, com limite.
Quero que toda a frota de subagentes rode em Haiku,
mas que você (o chefe) continue em Sonnet. Me mostre
como ligar isso com CLAUDE_CODE_SUBAGENT_MODEL e
confirme quem ficou em qual modelo.
Crie um subagente de varredura de logs em Haiku,
read-only, com maxTurns 12 para ele não entrar em
loop. Quero o arquivo .md pronto, com model e maxTurns
no frontmatter.
Para este trabalho [descreva], me proponha a divisão
chefe/frota: o que fica no modelo caro (decidir/juntar)
e o que vai para a frota Haiku em paralelo. Diga qual
modelo e qual maxTurns para cada papel — e por quê.
Tela simulada: o painel de custo da frota
É assim que a economia aparece quando você observa: o
chefe em Opus mal gasta, porque só pensa; a
frota Haiku faz o trabalho pesado por uma fração do custo; e há um aviso onde um agente
encostou no maxTurns. Esse é o quadro que diz onde cortar — antes de chutar.
↑ Recriação ilustrativa do painel de custo (não é screenshot real). O chefe pensa por pouco; a frota carrega o trabalho — e o teto parou o agente travado.
Exercício
Escolha um trabalho de verdade que você tocaria com subagentes (ex.: "auditar 50 arquivos de log do último deploy"). Desenhe a divisão chefe/frota: o que fica no modelo caro, o que vai para a frota barata, e que teto cada um leva.
Como fazer
- Escreva o trabalho em uma linha e separe decidir/juntar (chefe) de ler/buscar/resumir (frota).
- Para cada parte, escolha um modelo (Opus/Sonnet para o chefe; Haiku para a frota) e justifique.
- Defina um maxTurns por papel (curto na frota, mais largo no chefe) e diga como ligaria a frota barata (env var ou
modelno arquivo).
✅ Critério de verificação — como saber que acertou
Seu desenho passa se atender aos quatro pontos:
- →O caro só pensa: o modelo forte aparece só em decidir/planejar/sintetizar, nunca em varredura bruta.
- →A frota é Haiku e paralela: o trabalho pesado está no barato e pode rodar em massa.
- →Todo agente tem teto: nenhum papel fica sem
maxTurns— curto na frota, maior no chefe. - →O 15× se justifica: você consegue dizer em uma frase por que vale pagar o multiagente neste caso (grande/ruidoso/paralelo).
Se o trabalho é pequeno e o 15× não se justifica, a resposta certa é não usar frota — e perceber isso também conta como acerto.
Exemplo resolvido
Trabalho: "auditar 50 logs do deploy e me dizer os 3 erros mais frequentes". Chefe (Sonnet): divide os 50 em lotes, junta os resumos e ranqueia os erros — maxTurns 25. Frota (Haiku, ~5 em paralelo): cada um varre um lote read-only e devolve a contagem — maxTurns 12. 15× se justifica? Sim: 50 arquivos, material ruidoso, paralelizável — quero só o ranking limpo.
✅ Resumo do módulo
model no arquivo vence sempre.Próximo módulo:
3.3 — Encadeando subagentes. O maestro coordena A→B→C; agents não chamam agents, e a sequência fica nas mãos do chefe.