Voltar ao blog

Gemini 3.5 Flash e a inversão de tier: quando o modelo barato lidera benchmarks agentic

AI Gemini AgenticAI AIEngineering Benchmarks Google Inferência

O Gemini 3.5 Flash, lançado em 19 de maio no Google I/O 2026, é um modelo da linha Flash — a linha historicamente associada a custo baixo, latência mínima e qualidade suficiente para tarefas simples. Só que os números contam uma história diferente. No Terminal-Bench 2.1, benchmark de coding agents, o 3.5 Flash marca 76,2% contra 70,3% do Gemini 3.1 Pro. No MCP Atlas, que avalia uso de ferramentas em fluxos agentic via Model Context Protocol, 83,6% contra 78,2%. No Finance Agent v2, 57,9% contra 43,0%. No GDPval-AA, 1656 Elo contra 1314. Em todos os benchmarks que medem capacidade de operar como agente — invocar ferramentas, manter estado, executar tarefas de múltiplos passos — o Flash supera o Pro da geração anterior.

A inversão não é acidente. O pós-treinamento do 3.5 Flash foi orientado para tarefas agentic: uso de ferramentas, execução de código, loops de planejamento e ação. A mudança técnica mais relevante é o thought preservation — a capacidade de manter raciocínio intermediário entre turnos de uma conversa multi-turno. No Gemini 3 Flash, cada turno começava do zero: se o turno 1 raciocinava sobre um modelo de dados e produzia uma resposta, o turno 2 precisava reconstruir tudo a partir do contexto acumulado. No 3.5 Flash, o raciocínio intermediário persiste automaticamente. Para um agente que executa dez ou vinte passos, a diferença é estrutural — o modelo acumula entendimento em vez de reconstruí-lo a cada iteração.

Os limites da inversão

Mas a inversão tem limites precisos. Nos mesmos benchmarks onde o Flash lidera em tarefas agentic, ele perde em raciocínio abstrato puro. No ARC-AGI-2, o 3.5 Flash marca 72,1% contra 77,1% do Gemini 3.1 Pro e 85,0% do GPT-5.5 — uma diferença de 13 pontos para o líder. No Humanity’s Last Exam, 40,2% contra 44,4% do Pro. No MRCR v2 a 128k tokens — recuperação de informação em contextos longos — o Flash caiu de 84,9% para 77,3%, uma regressão de 7,6 pontos justamente na faixa de contexto que a maioria das aplicações reais utiliza.

O padrão que emerge é uma bifurcação no que “capacidade de fronteira” significa. Quando a tarefa envolve loops de execução com ferramentas — o agente lê código, roda testes, interpreta resultados, ajusta e repete — o Flash é mais capaz que o Pro anterior. Quando a tarefa exige raciocínio de passo único sobre problemas abstratos novos, sem ferramentas disponíveis, o Pro continua à frente. O pós-treinamento otimizou para uma direção ao custo da outra, e os benchmarks capturam essa troca com clareza.

O paradoxo do custo

A questão de custo reflete a mesma tensão. O 3.5 Flash custa US$ 1,50 por milhão de tokens de entrada e US$ 9,00 por milhão de tokens de saída — cerca de 3x o Gemini 3 Flash (US$ 0,50 / US$ 3,00), mas 40% menos que o Gemini 3.1 Pro (US$ 2,50 / US$ 15,00) em ambos os lados. Na comparação por token, é mais barato que o Pro.

Na prática, porém, o thought preservation carrega tokens de raciocínio entre turnos, e esses tokens são cobrados como saída. A Artificial Analysis reportou que o custo para rodar seu índice completo de benchmarks foi 5,5x maior no 3.5 Flash do que no 3 Flash, e 75% maior do que no 3.1 Pro. A documentação do Google recomenda orçar 30-50% mais tokens para loops agentic longos em relação ao equivalente no modelo anterior. O modelo é mais barato por token, mas consome mais tokens por tarefa — e a conta final depende do comprimento médio das sessões.

Thinking levels como decisão de arquitetura

A configuração de raciocínio agora tem quatro níveis — minimal, low, medium, high — e o padrão mudou de high para medium. O nível low foi otimizado para tarefas de código e loops agentic que exigem menos passos, oferecendo qualidade competitiva a menor latência e custo. A escolha do nível de raciocínio deixou de ser um detalhe de API e virou uma decisão de arquitetura: o mesmo modelo pode operar como agente rápido em low ou como raciocinador profundo em high, com custos e latências proporcionais.

Os thinking tokens não contam contra o limite de 65k tokens de saída, mas são cobrados à tarifa de saída (US$ 9,00 por milhão). Uma conversa de dez turnos com thinking level high pode acumular substancialmente mais tokens do que a contagem bruta de turnos user/assistant sugere. A escolha de thinking level é, na prática, uma escolha de envelope de custo por sessão.

Antigravity 2.0 e o modelo como componente de sistema

Junto com o modelo, o Google lançou o Antigravity 2.0 — uma plataforma de execução de agentes que permite orquestrar subagentes em paralelo, agendar tarefas em segundo plano e integrar com o ecossistema Google (AI Studio, Android, Firebase). Uma demonstração publicada pelo Google envolveu 93 subagentes construindo a estrutura de um sistema operacional em 12 horas, processando bilhões de tokens por menos de US$ 1.000 em computação. O SDK e o CLI do Antigravity dão acesso programático ao mesmo motor.

O modelo e a plataforma de execução foram lançados como sistema integrado — o 3.5 Flash não é só um modelo de linguagem, é o motor padrão de uma infraestrutura de agentes. A velocidade do modelo (4x mais rápido que outros modelos de fronteira em tokens de saída por segundo, segundo o Google) não é apenas uma vantagem de latência para o usuário final; é uma propriedade que viabiliza execução paralela massiva de subagentes a custo controlado.

O que a inversão de tier significa na prática

O que o 3.5 Flash torna explícito é que a hierarquia tradicional de modelos — Flash para tarefas simples, Pro para tarefas difíceis, Ultra para fronteira — não descreve mais a realidade quando o eixo de dificuldade muda. “Difícil” costumava significar raciocínio profundo em problemas abstratos. Agora, “difícil” pode significar manter coerência ao longo de dezenas de turnos com ferramentas externas, e nesse eixo o modelo mais rápido e barato lidera. A nomenclatura de tier virou artefato de marketing que não mapeia diretamente para capacidade — o que importa é se o pós-treinamento foi orientado para loops de execução ou para inferência de turno único, e essa informação só aparece nos benchmarks, não no nome do produto.

A implicação para quem constrói sistemas sobre esses modelos é concreta: a escolha de modelo deixou de ser uma escada linear de preço e qualidade. Um pipeline que combina um agente rodando em Flash com thinking level low para tarefas de execução rotineira e escala para Pro com thinking level high em pontos que exigem raciocínio abstrato profundo opera de forma mais eficiente do que usar um único tier para tudo. Mas isso exige saber, para cada etapa do fluxo, se o gargalo é capacidade de execução com ferramentas ou raciocínio de passo único — e os benchmarks atuais finalmente permitem fazer essa distinção.

Referências