MÓDULO 3.2 · Trilha 3 · Modelo, custo e orquestração

💰 A economia real

Subagente custa. Mas o gasto não vem de "usar o modelo caro" — vem de usar o modelo caro no lugar errado. O segredo é montar um time: um chefe esperto que pensa, e uma frota barata que faz o trabalho pesado.

6
Tópicos
~30
Minutos
Médio
Nível
Teoria+
Tipo

Pense numa redação de jornal. O editor-chefe não sai correndo atrás de cada fonte: ele lê, decide a pauta, distribui e fecha a edição. Quem vai à rua, transcreve entrevista e revisa ortografia é a equipe — gente boa, mais barata, em maior número. Se o chefe fosse fazer tudo, a folha de pagamento explodia e o jornal sairia atrasado. Subagentes funcionam igual: deixe um modelo caro pensar e uma frota barata trabalhar. A economia não está em cortar qualidade — está em colocar cada modelo onde ele rende.

Chefe Opus · pensa e decide caro · 1 só Haiku Haiku Haiku Haiku Haiku … frota barata · muitos · em paralelo Síntese o chefe fecha

↑ O desenho da economia: 1 chefe caro decide, uma frota barata executa em paralelo, o chefe fecha a edição.

Conteúdo detalhado

1

🏛️ O chefe esperto e a frota barata

O desenho que economiza dinheiro tem dois papéis. No topo, um modelo caro — Opus ou Sonnet — que pensa: lê o problema, faz o plano, distribui as tarefas e junta tudo no fim. Embaixo, uma frota de modelos baratos — Haiku — que faz o trabalho pesado: escaneia, busca, lê arquivo, resume. Você paga o caro uma vez, para a parte difícil, e o barato muitas vezes, para a parte mecânica.

📰 A analogia da redação

O editor-chefe define a pauta e fecha a edição — é insubstituível, mas é um só. A reportagem, a transcrição e a revisão ortográfica vão para a equipe: barata, numerosa, rápida. Ninguém põe o editor-chefe para transcrever áudio de duas horas. Com subagentes é a mesma divisão:

  • Chefe (Opus/Sonnet) = decide, planeja, sintetiza. Caro — use pouco e bem.
  • Frota (Haiku) = escaneia, busca, lê, resume. Barata — use à vontade, em paralelo.
  • O erro = pôr o chefe para fazer trabalho de frota — ou a frota para decidir.
O que é:

Um padrão de orquestração hierárquica: um modelo forte coordena; muitos modelos baratos executam o grosso do trabalho em paralelo.

Por que aprender:

É o que separa "subagente é caro demais" de "subagente sai barato". A conta muda completamente quando o trabalho pesado roda no modelo barato.

Conceitos-chave:

Fan-out hierárquico · chefe (raciocínio) × frota (execução) · pagar o caro 1×, o barato N×.

🧠
Chefe
decide
🐝
Frota
executa
Paralelo
em massa
💵
Caro 1×
barato N×
2

🎚️ A chave-mestra: CLAUDE_CODE_SUBAGENT_MODEL

Você pode definir o modelo de cada subagente um a um, no campo model do arquivo. Mas quando quer que toda a frota rode barato de uma vez, existe um atalho: a variável de ambiente CLAUDE_CODE_SUBAGENT_MODEL. Ela define o modelo padrão de todos os subagentes que não fixaram um modelo próprio — sem você tocar em cada arquivo.

no seu terminal variável de ambiente
# toda a frota de subagentes passa a rodar em Haiku
export CLAUDE_CODE_SUBAGENT_MODEL=claude-haiku-4-5

# abra o Claude Code já com a frota barata ligada
claude

# o chefe (a sessão principal) continua no modelo que
# você escolheu — só os subagentes herdam o Haiku.

🎯 Quem manda em quem

  • model no arquivo do agente — vence sempre (específico).
  • CLAUDE_CODE_SUBAGENT_MODEL — padrão para os que não fixaram modelo.
  • inherit — sem nenhum dos dois, o agente herda o modelo do chefe.

💡 A jogada da casa

Mantenha o chefe em Opus/Sonnet e jogue toda a frota em Haiku com a env var. Uma linha, e a parte cara do sistema vira só o cérebro — não os músculos.

O que é: a variável que define o modelo padrão de todos os subagentes de uma vez.
Por que aprender: é o jeito mais rápido de baratear a frota inteira sem editar arquivo por arquivo.
Conceitos-chave: env var · precedência (model > env > inherit) · chefe fora do alcance da variável.
3

🛑 maxTurns: a corda de segurança do gasto

O custo que assusta não é o subagente que faz o trabalho — é o subagente que entra em loop: tenta, falha, tenta de novo, e fica rodando às suas custas. O maxTurns é o teto de quantos passos (turnos de ferramenta) um subagente pode dar antes de parar. É um disjuntor: estourou o limite, desliga — em vez de queimar tokens a noite inteira.

✗ Sem teto de turnos

  • Um agente travado tenta a mesma coisa 40 vezes
  • A conta sobe sem ninguém olhando
  • O loop só aparece quando a fatura chega

✓ Com maxTurns

  • Bate no teto, para e devolve o que tem
  • O gasto máximo por subagente fica previsível
  • O chefe percebe que travou e decide o próximo passo

📊 Como dimensionar o teto

Uma tarefa de leitura/resumo costuma fechar em poucos turnos. Se você espera ~10 passos, um teto de 15–20 dá folga sem deixar o loop livre. Frota barata pode ter teto curto (tarefa simples); o chefe, que faz mais idas e voltas, merece um teto maior. Sem teto = aposta aberta.

O que é: o número máximo de turnos que um subagente pode dar antes de ser interrompido.
Por que aprender: é a defesa contra o gasto descontrolado de um agente em loop — o pior tipo de custo.
Conceitos-chave: teto de turnos · disjuntor de custo · teto curto na frota, mais largo no chefe.
4

📈 Multiagente custa ~15× — e quando isso vale

Não tem mágica: rodar uma frota de subagentes consome muito mais tokens que uma única conversa — na ordem de ~15×. Cada subagente começa do zero e reúne o próprio contexto antes de produzir. Isso não é desperdício automático: é o preço do paralelismo e do contexto limpo. A pergunta certa não é "é caro?", e sim "o que eu ganho que compensa esse 15×?".

consumo relativo de tokens (ilustrativo)
1 conversa única
frota multiagente~15×
↑ 15× mais tokens — só vale quando o trabalho é grande, ruidoso ou paralelizável de verdade.

↑ Recriação ilustrativa, não medição real. A proporção existe para fixar a ordem de grandeza.

✓ Quando o 15× compensa

  • O trabalho é grande (dezenas de arquivos, muita leitura)
  • O material é ruidoso e você só quer a conclusão limpa
  • Dá para paralelizar e ganhar tempo de parede
  • Proteger o seu contexto vale o gasto extra de tokens

✗ Quando é só desperdício

  • Uma edição de 30 segundos num arquivo só
  • Algo que depende da conversa inteira que você já tem
  • Tarefa pequena, sem leitura pesada nem paralelismo
  • Pagar 15× para montar contexto que já estava na sua mão
O que é: a ordem de grandeza do custo de uma frota multiagente frente a uma conversa única.
Por que aprender: para decidir com os olhos abertos — saber o preço e escolher pagá-lo quando, e só quando, compensa.
Conceitos-chave: ~15× tokens · cada agente reúne contexto · grande/ruidoso/paralelo × edição rápida.
5

🧩 Combinar bem > gastar muito

O instinto errado é "se está caro, é porque preciso de um modelo mais forte". Quase nunca. O ganho real vem de combinar: o modelo certo no papel certo, o teto certo, o paralelismo certo. Uma frota Haiku bem orquestrada por um chefe Sonnet entrega mais por menos do que tudo em Opus. Arquitetura vence força bruta.

chefe esperto Opus/Sonnet + frota barata Haiku · paralela + tetos de turno maxTurns = entrega barata e boa arquitetura > força bruta

💡 Antes de subir o modelo, ajuste o desenho

Travou ou ficou caro? Antes de trocar Haiku por Opus em tudo, pergunte: dá para paralelizar? O briefing está claro (menos idas e voltas)? O teto está sufocando uma tarefa que precisava de mais? Na maioria das vezes o problema é de arquitetura, não de modelo.

O que é: o princípio de que combinar recursos com critério rende mais que escalar o modelo na marra.
Por que aprender: evita a saída cara e preguiçosa de "põe tudo no Opus" quando o gargalo é de orquestração.
Conceitos-chave: combinação (modelo+teto+paralelismo) · arquitetura > força bruta · ajustar desenho antes do modelo.
6

🔭 Medir e observar: você não corta o que não vê

Economia de verdade exige olhar para o gasto. Quanto cada subagente consumiu? Qual deles bateu no teto? Onde o tempo foi embora? Sem observar, você otimiza no escuro — corta o que era barato e deixa rodando o caro. Meça primeiro, ajuste depois: é assim que a divisão chefe/frota deixa de ser palpite e vira número.

1

Observe uma rodada real

Rode o trabalho como está hoje.

Veja por subagente: modelo usado, tokens consumidos, turnos gastos, quem bateu no teto.

2

Ache o ofensor

O gasto raramente está espalhado por igual.

Quase sempre um agente caro fazendo trabalho de frota, ou um loop sem teto, responde pela maior parte da conta.

3

Ajuste um parâmetro e remeça

Uma mudança de cada vez.

Baixe o modelo de um agente, ponha um teto, paralelize — e compare a nova rodada com a anterior. Repita.

O que é: o hábito de medir o consumo dos subagentes e ajustar o desenho com base no que se vê.
Por que aprender: otimizar sem medir é chute; com medição, cada corte mira o gasto que realmente pesa.
Conceitos-chave: observabilidade · achar o ofensor · medir → ajustar um parâmetro → remedir.
📄

Exemplo real: um agente de frota com model + maxTurns

Os dois controles deste módulo cabem no frontmatter de um único arquivo .md: model diz quem faz (modelo barato), e maxTurns diz até onde ele pode ir antes de parar. Este log-scanner.md é um trabalhador de frota típico: barato, read-only, com teto.

.claude/agents/log-scanner.md Markdown + YAML
--- # frontmatter: a CONFIGURAÇÃO do subagente
name: log-scanner             # minúsculas e hífens
description: Vasculha logs e arquivos grandes em
  busca de erros e devolve só um resumo. Use para
  varreduras pesadas.          # o GATILHO
tools: Read, Grep, Glob       # só leitura: trabalho de frota
model: haiku                  # BARATO — é a frota, não o chefe
maxTurns: 12                  # TETO — disjuntor contra loop
---

# corpo: o CÉREBRO do subagente
You are a fast log scanner.

When invoked:
1. Grep the given files for errors and warnings.
2. Group what you find by type and file.
3. Stop as soon as you have the summary.

Return: a short report — counts per error type
and the 3 files with the most issues. Nothing else.
Do not open files line by line; do not loop.

💵 model: haiku

  • É a frota — tarefa mecânica de varredura.
  • Barato por chamada — pode rodar em paralelo, em massa.
  • Vence a env var — modelo fixo no arquivo manda.
  • Read-only — sem ferramenta de escrita, sem estrago.

🛑 maxTurns: 12

  • Teto de passos — para mesmo se não "terminou".
  • Curto de propósito — varredura não precisa de muitos turnos.
  • Custo previsível — gasto máximo conhecido por chamada.
  • Mata o loop — o pior cenário de conta nunca acontece.
⌨️

Prompts prontos (copie e cole)

Três prompts para aplicar a economia agora: ligar a frota barata, pôr teto contra loop e desenhar a divisão chefe/frota antes de gastar. Repare no padrão: modelo certo no papel certo, com limite.

Prompt 1 — frota barata por padrão CLAUDE_CODE_SUBAGENT_MODEL
Quero que toda a frota de subagentes rode em Haiku,
mas que você (o chefe) continue em Sonnet. Me mostre
como ligar isso com CLAUDE_CODE_SUBAGENT_MODEL e
confirme quem ficou em qual modelo.
Prompt 2 — teto contra loop maxTurns
Crie um subagente de varredura de logs em Haiku,
read-only, com maxTurns 12 para ele não entrar em
loop. Quero o arquivo .md pronto, com model e maxTurns
no frontmatter.
Prompt 3 — desenhar a divisão antes de gastar chefe × frota
Para este trabalho [descreva], me proponha a divisão
chefe/frota: o que fica no modelo caro (decidir/juntar)
e o que vai para a frota Haiku em paralelo. Diga qual
modelo e qual maxTurns para cada papel — e por quê.
🖥️

Tela simulada: o painel de custo da frota

É assim que a economia aparece quando você observa: o chefe em Opus mal gasta, porque só pensa; a frota Haiku faz o trabalho pesado por uma fração do custo; e há um aviso onde um agente encostou no maxTurns. Esse é o quadro que diz onde cortar — antes de chutar.

claude code · /cost · frota em execução ⏱ 01:12
★ chefe (sessão)Opus
~38k tok
● scanner-logs #1Haiku
~9k tok
● scanner-logs #2Haiku
~7k tok
● grep-massa #3Haiku
~11k tok
● doc-reader #4Haiku
maxTurns!
4 subagentes Haiku · 1 bateu no teto (12 turnos) e parou — sem virar loop.
96% dos tokens na frota barata · 14% no chefe
distribuição do gasto saudável

↑ Recriação ilustrativa do painel de custo (não é screenshot real). O chefe pensa por pouco; a frota carrega o trabalho — e o teto parou o agente travado.

🎯

Exercício

Escolha um trabalho de verdade que você tocaria com subagentes (ex.: "auditar 50 arquivos de log do último deploy"). Desenhe a divisão chefe/frota: o que fica no modelo caro, o que vai para a frota barata, e que teto cada um leva.

Como fazer

  1. Escreva o trabalho em uma linha e separe decidir/juntar (chefe) de ler/buscar/resumir (frota).
  2. Para cada parte, escolha um modelo (Opus/Sonnet para o chefe; Haiku para a frota) e justifique.
  3. Defina um maxTurns por papel (curto na frota, mais largo no chefe) e diga como ligaria a frota barata (env var ou model no arquivo).

✅ Critério de verificação — como saber que acertou

Seu desenho passa se atender aos quatro pontos:

  • O caro só pensa: o modelo forte aparece só em decidir/planejar/sintetizar, nunca em varredura bruta.
  • A frota é Haiku e paralela: o trabalho pesado está no barato e pode rodar em massa.
  • Todo agente tem teto: nenhum papel fica sem maxTurns — curto na frota, maior no chefe.
  • O 15× se justifica: você consegue dizer em uma frase por que vale pagar o multiagente neste caso (grande/ruidoso/paralelo).

Se o trabalho é pequeno e o 15× não se justifica, a resposta certa é não usar frota — e perceber isso também conta como acerto.

Exemplo resolvido

Trabalho: "auditar 50 logs do deploy e me dizer os 3 erros mais frequentes". Chefe (Sonnet): divide os 50 em lotes, junta os resumos e ranqueia os erros — maxTurns 25. Frota (Haiku, ~5 em paralelo): cada um varre um lote read-only e devolve a contagem — maxTurns 12. 15× se justifica? Sim: 50 arquivos, material ruidoso, paralelizável — quero só o ranking limpo.

Resumo do módulo

Chefe + frota — um modelo caro pensa (Opus/Sonnet); uma frota barata (Haiku) faz o trabalho pesado em paralelo.
CLAUDE_CODE_SUBAGENT_MODEL — uma env var baixa toda a frota para Haiku de uma vez; model no arquivo vence sempre.
maxTurns — o disjuntor: teto de passos que mata loop e torna o gasto por agente previsível.
~15× e quando vale — multiagente custa muito mais; só compensa em trabalho grande, ruidoso ou paralelo.
Combinar > gastar — modelo+teto+paralelismo bem combinados rendem mais que pôr tudo no Opus.
Medir e observar — olhe o custo por subagente, ache o ofensor, ajuste um parâmetro e remeça.

Próximo módulo:

3.3 — Encadeando subagentes. O maestro coordena A→B→C; agents não chamam agents, e a sequência fica nas mãos do chefe.