A economia real | Subagentes

Pense numa redação de jornal. O editor-chefe não sai correndo atrás de cada fonte: ele lê, decide a pauta, distribui e fecha a edição. Quem vai à rua, transcreve entrevista e revisa ortografia é a equipe — gente boa, mais barata, em maior número. Se o chefe fosse fazer tudo, a folha de pagamento explodia e o jornal sairia atrasado. Subagentes funcionam igual: deixe um modelo caro pensar e uma frota barata trabalhar. A economia não está em cortar qualidade — está em colocar cada modelo onde ele rende.

↑ O desenho da economia: 1 chefe caro decide, uma frota barata executa em paralelo, o chefe fecha a edição.

Conteúdo detalhado

🏛️ O chefe esperto e a frota barata

O desenho que economiza dinheiro tem dois papéis. No topo, um modelo caro — Opus ou Sonnet — que pensa: lê o problema, faz o plano, distribui as tarefas e junta tudo no fim. Embaixo, uma frota de modelos baratos — Haiku — que faz o trabalho pesado: escaneia, busca, lê arquivo, resume. Você paga o caro uma vez, para a parte difícil, e o barato muitas vezes, para a parte mecânica.

📰 A analogia da redação

O editor-chefe define a pauta e fecha a edição — é insubstituível, mas é um só. A reportagem, a transcrição e a revisão ortográfica vão para a equipe: barata, numerosa, rápida. Ninguém põe o editor-chefe para transcrever áudio de duas horas. Com subagentes é a mesma divisão:

•Chefe (Opus/Sonnet) = decide, planeja, sintetiza. Caro — use pouco e bem.
•Frota (Haiku) = escaneia, busca, lê, resume. Barata — use à vontade, em paralelo.
•O erro = pôr o chefe para fazer trabalho de frota — ou a frota para decidir.

O que é:

Um padrão de orquestração hierárquica: um modelo forte coordena; muitos modelos baratos executam o grosso do trabalho em paralelo.

Por que aprender:

É o que separa "subagente é caro demais" de "subagente sai barato". A conta muda completamente quando o trabalho pesado roda no modelo barato.

Conceitos-chave:

Fan-out hierárquico · chefe (raciocínio) × frota (execução) · pagar o caro 1×, o barato N×.

🧠

Chefe

decide

🐝

Frota

executa

⚡

Paralelo

em massa

💵

Caro 1×

barato N×

🎚️ A chave-mestra: CLAUDE_CODE_SUBAGENT_MODEL

Você pode definir o modelo de cada subagente um a um, no campo model do arquivo. Mas quando quer que toda a frota rode barato de uma vez, existe um atalho: a variável de ambiente CLAUDE_CODE_SUBAGENT_MODEL. Ela define o modelo padrão de todos os subagentes que não fixaram um modelo próprio — sem você tocar em cada arquivo.

no seu terminal variável de ambiente

# toda a frota de subagentes passa a rodar em Haiku
export CLAUDE_CODE_SUBAGENT_MODEL=claude-haiku-4-5

# abra o Claude Code já com a frota barata ligada
claude

# o chefe (a sessão principal) continua no modelo que
# você escolheu — só os subagentes herdam o Haiku.

🎯 Quem manda em quem

model no arquivo do agente — vence sempre (específico).
CLAUDE_CODE_SUBAGENT_MODEL — padrão para os que não fixaram modelo.
inherit — sem nenhum dos dois, o agente herda o modelo do chefe.

💡 A jogada da casa

Mantenha o chefe em Opus/Sonnet e jogue toda a frota em Haiku com a env var. Uma linha, e a parte cara do sistema vira só o cérebro — não os músculos.

O que é: a variável que define o modelo padrão de todos os subagentes de uma vez.

Por que aprender: é o jeito mais rápido de baratear a frota inteira sem editar arquivo por arquivo.

Conceitos-chave: env var · precedência (model > env > inherit) · chefe fora do alcance da variável.

🛑 maxTurns: a corda de segurança do gasto

O custo que assusta não é o subagente que faz o trabalho — é o subagente que entra em loop: tenta, falha, tenta de novo, e fica rodando às suas custas. O maxTurns é o teto de quantos passos (turnos de ferramenta) um subagente pode dar antes de parar. É um disjuntor: estourou o limite, desliga — em vez de queimar tokens a noite inteira.

✗ Sem teto de turnos

✗Um agente travado tenta a mesma coisa 40 vezes
✗A conta sobe sem ninguém olhando
✗O loop só aparece quando a fatura chega

✓ Com maxTurns

✓Bate no teto, para e devolve o que tem
✓O gasto máximo por subagente fica previsível
✓O chefe percebe que travou e decide o próximo passo

📊 Como dimensionar o teto

Uma tarefa de leitura/resumo costuma fechar em poucos turnos. Se você espera ~10 passos, um teto de 15–20 dá folga sem deixar o loop livre. Frota barata pode ter teto curto (tarefa simples); o chefe, que faz mais idas e voltas, merece um teto maior. Sem teto = aposta aberta.

O que é: o número máximo de turnos que um subagente pode dar antes de ser interrompido.

Por que aprender: é a defesa contra o gasto descontrolado de um agente em loop — o pior tipo de custo.

Conceitos-chave: teto de turnos · disjuntor de custo · teto curto na frota, mais largo no chefe.

📈 Multiagente custa ~15× — e quando isso vale

Não tem mágica: rodar uma frota de subagentes consome muito mais tokens que uma única conversa — na ordem de ~15×. Cada subagente começa do zero e reúne o próprio contexto antes de produzir. Isso não é desperdício automático: é o preço do paralelismo e do contexto limpo. A pergunta certa não é "é caro?", e sim "o que eu ganho que compensa esse 15×?".

consumo relativo de tokens (ilustrativo)

1 conversa única1×

frota multiagente~15×

↑ 15× mais tokens — só vale quando o trabalho é grande, ruidoso ou paralelizável de verdade.

↑ Recriação ilustrativa, não medição real. A proporção existe para fixar a ordem de grandeza.

✓ Quando o 15× compensa

✓O trabalho é grande (dezenas de arquivos, muita leitura)
✓O material é ruidoso e você só quer a conclusão limpa
✓Dá para paralelizar e ganhar tempo de parede
✓Proteger o seu contexto vale o gasto extra de tokens

✗ Quando é só desperdício

✗Uma edição de 30 segundos num arquivo só
✗Algo que depende da conversa inteira que você já tem
✗Tarefa pequena, sem leitura pesada nem paralelismo
✗Pagar 15× para montar contexto que já estava na sua mão

O que é: a ordem de grandeza do custo de uma frota multiagente frente a uma conversa única.

Por que aprender: para decidir com os olhos abertos — saber o preço e escolher pagá-lo quando, e só quando, compensa.

Conceitos-chave: ~15× tokens · cada agente reúne contexto · grande/ruidoso/paralelo × edição rápida.

🧩 Combinar bem > gastar muito

O instinto errado é "se está caro, é porque preciso de um modelo mais forte". Quase nunca. O ganho real vem de combinar: o modelo certo no papel certo, o teto certo, o paralelismo certo. Uma frota Haiku bem orquestrada por um chefe Sonnet entrega mais por menos do que tudo em Opus. Arquitetura vence força bruta.

💡 Antes de subir o modelo, ajuste o desenho

Travou ou ficou caro? Antes de trocar Haiku por Opus em tudo, pergunte: dá para paralelizar? O briefing está claro (menos idas e voltas)? O teto está sufocando uma tarefa que precisava de mais? Na maioria das vezes o problema é de arquitetura, não de modelo.

O que é: o princípio de que combinar recursos com critério rende mais que escalar o modelo na marra.

Por que aprender: evita a saída cara e preguiçosa de "põe tudo no Opus" quando o gargalo é de orquestração.

Conceitos-chave: combinação (modelo+teto+paralelismo) · arquitetura > força bruta · ajustar desenho antes do modelo.

🔭 Medir e observar: você não corta o que não vê

Economia de verdade exige olhar para o gasto. Quanto cada subagente consumiu? Qual deles bateu no teto? Onde o tempo foi embora? Sem observar, você otimiza no escuro — corta o que era barato e deixa rodando o caro. Meça primeiro, ajuste depois: é assim que a divisão chefe/frota deixa de ser palpite e vira número.

Observe uma rodada real

Rode o trabalho como está hoje.

Veja por subagente: modelo usado, tokens consumidos, turnos gastos, quem bateu no teto.

Ache o ofensor

O gasto raramente está espalhado por igual.

Quase sempre um agente caro fazendo trabalho de frota, ou um loop sem teto, responde pela maior parte da conta.

Ajuste um parâmetro e remeça

Uma mudança de cada vez.

Baixe o modelo de um agente, ponha um teto, paralelize — e compare a nova rodada com a anterior. Repita.

O que é: o hábito de medir o consumo dos subagentes e ajustar o desenho com base no que se vê.

Por que aprender: otimizar sem medir é chute; com medição, cada corte mira o gasto que realmente pesa.

Conceitos-chave: observabilidade · achar o ofensor · medir → ajustar um parâmetro → remedir.

📄

Exemplo real: um agente de frota com model + maxTurns

Os dois controles deste módulo cabem no frontmatter de um único arquivo .md: model diz quem faz (modelo barato), e maxTurns diz até onde ele pode ir antes de parar. Este log-scanner.md é um trabalhador de frota típico: barato, read-only, com teto.

.claude/agents/log-scanner.md Markdown + YAML

--- # frontmatter: a CONFIGURAÇÃO do subagente
name: log-scanner             # minúsculas e hífens
description: Vasculha logs e arquivos grandes em
  busca de erros e devolve só um resumo. Use para
  varreduras pesadas.          # o GATILHO
tools: Read, Grep, Glob       # só leitura: trabalho de frota
model: haiku                  # BARATO — é a frota, não o chefe
maxTurns: 12                  # TETO — disjuntor contra loop
---

# corpo: o CÉREBRO do subagente
You are a fast log scanner.

When invoked:
1. Grep the given files for errors and warnings.
2. Group what you find by type and file.
3. Stop as soon as you have the summary.

Return: a short report — counts per error type
and the 3 files with the most issues. Nothing else.
Do not open files line by line; do not loop.

💵 model: haiku

É a frota — tarefa mecânica de varredura.
Barato por chamada — pode rodar em paralelo, em massa.
Vence a env var — modelo fixo no arquivo manda.
Read-only — sem ferramenta de escrita, sem estrago.

🛑 maxTurns: 12

Teto de passos — para mesmo se não "terminou".
Curto de propósito — varredura não precisa de muitos turnos.
Custo previsível — gasto máximo conhecido por chamada.
Mata o loop — o pior cenário de conta nunca acontece.

⌨️

Prompts prontos (copie e cole)

Três prompts para aplicar a economia agora: ligar a frota barata, pôr teto contra loop e desenhar a divisão chefe/frota antes de gastar. Repare no padrão: modelo certo no papel certo, com limite.

Prompt 1 — frota barata por padrão CLAUDE_CODE_SUBAGENT_MODEL

Quero que toda a frota de subagentes rode em Haiku,
mas que você (o chefe) continue em Sonnet. Me mostre
como ligar isso com CLAUDE_CODE_SUBAGENT_MODEL e
confirme quem ficou em qual modelo.

Prompt 2 — teto contra loop maxTurns

Crie um subagente de varredura de logs em Haiku,
read-only, com maxTurns 12 para ele não entrar em
loop. Quero o arquivo .md pronto, com model e maxTurns
no frontmatter.

Prompt 3 — desenhar a divisão antes de gastar chefe × frota

Para este trabalho [descreva], me proponha a divisão
chefe/frota: o que fica no modelo caro (decidir/juntar)
e o que vai para a frota Haiku em paralelo. Diga qual
modelo e qual maxTurns para cada papel — e por quê.

🖥️

Tela simulada: o painel de custo da frota

É assim que a economia aparece quando você observa: o chefe em Opus mal gasta, porque só pensa; a frota Haiku faz o trabalho pesado por uma fração do custo; e há um aviso onde um agente encostou no maxTurns. Esse é o quadro que diz onde cortar — antes de chutar.

claude code · /cost · frota em execução ⏱ 01:12

★ chefe (sessão)Opus

~38k tok

● scanner-logs #1Haiku

~9k tok

● scanner-logs #2Haiku

~7k tok

● grep-massa #3Haiku

~11k tok

● doc-reader #4Haiku

maxTurns!

4 subagentes Haiku · 1 bateu no teto (12 turnos) e parou — sem virar loop.

96% dos tokens na frota barata · 14% no chefe

distribuição do gasto saudável

↑ Recriação ilustrativa do painel de custo (não é screenshot real). O chefe pensa por pouco; a frota carrega o trabalho — e o teto parou o agente travado.

🎯

Exercício

Escolha um trabalho de verdade que você tocaria com subagentes (ex.: "auditar 50 arquivos de log do último deploy"). Desenhe a divisão chefe/frota: o que fica no modelo caro, o que vai para a frota barata, e que teto cada um leva.

Como fazer

Escreva o trabalho em uma linha e separe decidir/juntar (chefe) de ler/buscar/resumir (frota).
Para cada parte, escolha um modelo (Opus/Sonnet para o chefe; Haiku para a frota) e justifique.
Defina um maxTurns por papel (curto na frota, mais largo no chefe) e diga como ligaria a frota barata (env var ou model no arquivo).

✅ Critério de verificação — como saber que acertou

Seu desenho passa se atender aos quatro pontos:

→O caro só pensa: o modelo forte aparece só em decidir/planejar/sintetizar, nunca em varredura bruta.
→A frota é Haiku e paralela: o trabalho pesado está no barato e pode rodar em massa.
→Todo agente tem teto: nenhum papel fica sem maxTurns — curto na frota, maior no chefe.
→O 15× se justifica: você consegue dizer em uma frase por que vale pagar o multiagente neste caso (grande/ruidoso/paralelo).

Se o trabalho é pequeno e o 15× não se justifica, a resposta certa é não usar frota — e perceber isso também conta como acerto.

Exemplo resolvido

Trabalho: "auditar 50 logs do deploy e me dizer os 3 erros mais frequentes". Chefe (Sonnet): divide os 50 em lotes, junta os resumos e ranqueia os erros — maxTurns 25. Frota (Haiku, ~5 em paralelo): cada um varre um lote read-only e devolve a contagem — maxTurns 12. 15× se justifica? Sim: 50 arquivos, material ruidoso, paralelizável — quero só o ranking limpo.

✅ Resumo do módulo

✓

Chefe + frota — um modelo caro pensa (Opus/Sonnet); uma frota barata (Haiku) faz o trabalho pesado em paralelo.

✓

CLAUDE_CODE_SUBAGENT_MODEL — uma env var baixa toda a frota para Haiku de uma vez; model no arquivo vence sempre.

✓

maxTurns — o disjuntor: teto de passos que mata loop e torna o gasto por agente previsível.

✓

~15× e quando vale — multiagente custa muito mais; só compensa em trabalho grande, ruidoso ou paralelo.

✓

Combinar > gastar — modelo+teto+paralelismo bem combinados rendem mais que pôr tudo no Opus.

✓

Medir e observar — olhe o custo por subagente, ache o ofensor, ajuste um parâmetro e remeça.

Próximo módulo:

3.3 — Encadeando subagentes. O maestro coordena A→B→C; agents não chamam agents, e a sequência fica nas mãos do chefe.

← Módulo anterior Próximo módulo →