A nova arquitetura dos coding agents: do modelo isolado ao sistema agentic
A conversa sobre IA aplicada a desenvolvimento de software passou por uma mudança de eixo nas últimas semanas. Não se trata mais de qual modelo escreve código melhor, mas de como os sistemas agentic ao redor dos modelos estão sendo projetados — e é essa camada de arquitetura que está definindo os resultados práticos.
O contexto: lançamentos simultâneos, tese convergente
Em um intervalo curto, movimentos relevantes aconteceram em paralelo:
- A OpenAI lançou o GPT-5.4 mini e nano com foco em coding e subagentes
- O Google publicou a família Gemma 4 como modelos abertos para raciocínio, multimodalidade e workflows agentic
- O GitHub começou a testar revisão cruzada entre famílias de modelos no Copilot CLI (projeto Rubber Duck)
- A JetBrains conectou o agente Junie ao contexto vivo do IDE
- A Anthropic publicou uma formulação que sintetiza bem a mudança: agente não é só modelo — é modelo + harness + tools + environment
O ponto em comum é claro: o centro de gravidade saiu do LLM isolado e foi para a arquitetura do sistema.
Modelos menores como peça central
O GPT-5.4 mini não é um fallback do modelo principal. É uma peça projetada para subagentes, tarefas paralelas, revisão de arquivos, navegação de codebase e loops curtos de debugging.
Nos números divulgados pela OpenAI:
| Benchmark | GPT-5 mini | GPT-5.4 mini | GPT-5.4 completo |
|---|---|---|---|
| SWE-Bench Pro | 45,7% | 54,4% | — |
| OSWorld-Verified | — | 72,1% | 75,0% |
O modelo roda mais de 2x mais rápido que o GPT-5 mini e se aproxima do frontier em tarefas de engenharia. Isso muda a dinâmica econômica: o trabalho pesado do dia a dia migra para modelos rápidos o suficiente para serem chamados muitas vezes em loop agentic, enquanto o modelo frontier entra em decisões críticas.
O Google empurrou a mesma tendência no mundo open-weight com o Gemma 4, publicado sob Apache 2.0. O destaque arquitetural é o modelo 26B A4B: 25,2 bilhões de parâmetros totais, mas apenas 3,8 bilhões ativos na inferência, com 128K de contexto e suporte a áudio/visão. No LiveCodeBench v6, o 31B atinge 80,0. Essa faixa de trade-off entre custo, latência e capacidade cria uma camada de deployment que vai além de “modelo aberto mais barato” — permite construir sistemas fora do padrão “tudo vai para a nuvem e volta”, com inferência local em Android, Raspberry Pi ou Jetson Orin Nano.
Contexto de IDE como diferencial prático
A atualização do Junie CLI da JetBrains ataca uma falha estrutural dos coding agents: eles não erram apenas porque o modelo “não sabe programar” — erram porque chutam estrutura de projeto, comando de teste, escopo de refactor e dependências implícitas.
Com acesso à indexação semântica, análise estática e configurações de build/teste do IDE, o agente passa a operar com o mesmo contexto que um desenvolvedor humano teria. Para projetos com monorepos, builds complexos ou convenções de teste específicas, acesso ao contexto certo tende a valer mais do que pontos adicionais em benchmarks genéricos.
Revisão multi-modelo: o experimento Rubber Duck
O GitHub Copilot CLI começou a testar revisão focal feita por uma família complementar de modelos. A premissa é direta: um modelo revisando a própria saída carrega os mesmos vieses e pontos cegos.
Nos experimentos divulgados, Claude Sonnet 4.6 com Rubber Duck rodando GPT-5.4 fechou 74,7% da diferença de performance para o Opus em SWE-Bench Pro, com melhoria concentrada nas tarefas mais difíceis — multi-arquivo e de longa duração.
A implicação arquitetural é que o stack vencedor provavelmente não terá um modelo só, mas papéis especializados: um modelo orquestra, outro revisa, um terceiro executa subtarefas baratas em paralelo.
Segurança e controle como dimensões do sistema
A Anthropic foi precisa ao definir agente como combinação de modelo, harness, tools e environment. Esse enquadramento importa porque a utilidade cresce junto com os riscos: intenção ambígua, permissões excessivas, prompt injection e automações que passam do ponto.
A empresa descreve mecanismos de controle humano como o Plan Mode no Claude Code, em que o usuário aprova a estratégia antes da execução. A própria Anthropic observa que ainda não existe um método padronizado e rigoroso para comparar sistemas agentic em resistência a prompt injection e em como eles sinalizam incerteza.
Benchmarks públicos servem como triagem. Avaliação séria continua sendo no código real, no CI, no modelo de permissão, no risco operacional e no custo por tarefa concluída.
Adoção em escala
O mercado confirma que a fase de curiosidade ficou para trás. A OpenAI flexibilizou a entrada do Codex com seats pay-as-you-go e reportou mais de 2 milhões de builders usando Codex semanalmente, com crescimento de 6x em Business e Enterprise desde janeiro. A disputa está saindo da demonstração individual e entrando em orçamento, governança, compra por equipe e escala operacional — e é nessa fase que arquitetura importa mais do que o modelo isolado.