Integração vertical de IA: o que a Microsoft montou no Build 2026

No Build 2026, a Microsoft anunciou sete modelos sob a marca MAI — raciocínio, código, imagem, transcrição e voz. Isoladamente, cada um compete com alternativas que já existem. Lidos em conjunto, formam uma pilha vertical que vai do silício ao produto final, e a decisão de engenharia que sustenta essa pilha é a mesma em todos: Mixture-of-Experts com proporção agressiva entre parâmetros totais e parâmetros ativos.

A escolha arquitetural: MoE com ativação esparsa

O MAI-Thinking-1 tem cerca de 1 trilhão de parâmetros totais e 35 bilhões ativos. O MAI-Code-1-Flash, 137 bilhões totais e 5 bilhões ativos. Em ambos os casos, cada token ativa uma fração pequena da rede. Num modelo MoE esparso, a requisição é roteada para subconjuntos especializados de parâmetros — os chamados “experts” — e o restante da rede permanece inerte. O custo de inferência escala com os parâmetros ativos, não com os totais.

Essa escolha não é acidental — é o que torna economicamente viável rodar modelos próprios em hardware próprio na escala do GitHub Copilot, que tem dezenas de milhões de desenvolvedores gerando requisições de inferência contínuas. Se o MAI-Thinking-1 fosse um modelo denso de 1 trilhão de parâmetros, o custo por token de inferência inviabilizaria a operação em hardware proprietário. Com 35 bilhões de parâmetros ativos por token, o perfil de computação cabe no envelope térmico e de memória de um acelerador customizado.

O MAI-Code-1-Flash leva essa lógica ao extremo: 5 bilhões de parâmetros ativos para um modelo que precisa responder com latência baixa no loop de digitação do editor de código. A Microsoft posiciona o modelo como otimizado para completions rápidas no VS Code e no GitHub Copilot CLI, onde a tolerância a latência é de dezenas de milissegundos.

Hardware: Maia 200 e a prioridade de largura de banda

O hardware próprio é o Maia 200, acelerador de segunda geração fabricado em processo de 3nm da TSMC. As especificações principais: 216 GB de HBM3e a 7 TB/s de largura de banda de memória, mais de 10 petaFLOPS em precisão FP4 e mais de 5 petaFLOPS em FP8, dentro de um envelope térmico de 750W. O chip conta com 272 MB de SRAM on-chip.

A arquitetura do Maia 200 prioriza largura de banda de memória sobre pico de throughput aritmético. A Microsoft descreve o interconnect interno como um mesh com planos lógicos separados para tráfego de tensores em alta largura e sinalização de controle em baixa latência. Essa separação faz sentido quando o gargalo de inferência em modelos esparsos é movimentação de dados entre memória e unidades de cálculo, não a capacidade bruta de multiplicação de matrizes.

Cada chip integra uma NIC com 2,8 TB/s de largura bidirecional via Ethernet padrão, permitindo escalar até 6.144 aceleradores por cluster usando switches Ethernet convencionais, sem fabric proprietário. A decisão de usar Ethernet padrão em vez de um interconnect proprietário (como o NVLink da NVIDIA) simplifica a operação de datacenter ao custo de latência potencialmente maior em comunicação inter-chip — um trade-off aceitável quando a carga principal é inferência (com dependências entre chips menores que em treinamento distribuído).

O Maia 200 sucede o Maia 100 (codinome “Athena”), anunciado no final de 2023 mas que nunca entrou em produção significativa. A segunda geração representa a primeira implantação real de silício customizado da Microsoft para inferência de IA em escala.

Project Polaris: modelo, hardware e distribuição como uma coisa só

O Project Polaris conecta as duas camadas anteriores ao produto. É o modelo que substituirá o GPT-4 Turbo como motor padrão do GitHub Copilot a partir de agosto de 2026, com migração automática para todos os tiers — Individual, Business e Enterprise. A Microsoft oferece um período de fallback de três meses para times que quiserem permanecer no GPT-4 durante a transição.

Polaris usa arquitetura MoE com submódulos especializados por linguagem de programação e framework, e roda exclusivamente nos aceleradores Maia dentro do Azure. A implicação econômica é direta: o custo marginal de inferência do Copilot deixa de ser “preço da API da OpenAI mais margem da Microsoft” e passa a ser “custo de operação de hardware próprio com modelo próprio.” A margem inteira fica dentro da empresa.

Essa movimentação tem precedente em outras indústrias — quando o volume justifica, o integrador vertical elimina a dependência do fornecedor externo e captura a margem do componente. O que distingue o caso da Microsoft é que a integração aconteceu de uma vez em três camadas simultâneas: modelo, silício e distribuição. Não houve transição gradual. Na segunda-feira do Build, o Copilot rodava GPT-4 Turbo em GPUs NVIDIA. Até agosto, rodará Polaris em Maia 200.

Benchmarks: competitivo, não líder

A qualidade dos modelos sustenta a tese até certo ponto. Os números reportados pela Microsoft e por avaliadores independentes situam os modelos MAI na faixa competitiva, mas não na liderança.

O MAI-Thinking-1 atinge 97% no AIME 2025, 94,5% no AIME 2026 e 53% no SWE-Bench Pro — comparável ao Claude Opus 4.6 nesse benchmark. Em avaliações humanas cegas conduzidas pela Surge, foi preferido em relação ao Claude Sonnet 4.6 em qualidade geral.

O MAI-Code-1-Flash marca 51,2% no SWE-Bench Pro com apenas 5 bilhões de parâmetros ativos, 16 pontos acima do Claude Haiku 4.5 (35,2%), e usa até 60% menos tokens para resolver problemas difíceis no SWE-Bench Verified. Na métrica de instrução precisa (IF Bench), a vantagem sobre o Haiku 4.5 é de 28,9 pontos.

São resultados competitivos, embora distantes do estado da arte atual — o Claude Opus 4.8 marca 69,2% no SWE-Bench Pro e o MiniMax M3 marca 59%. A posição da Microsoft não é de liderança em benchmarks absolutos, mas de eficiência por parâmetro ativo: extrair desempenho competitivo de modelos que custam significativamente menos para servir.

Proveniência de dados: onde a narrativa tropeça

Onde a narrativa tropeça é na proveniência dos dados de treinamento. Mustafa Suleyman, CEO da Microsoft AI, apresentou o MAI-Thinking-1 como treinado “do zero em dados enterprise-grade, limpos e comercialmente licenciados, sem destilação de modelos de terceiros.”

O artigo técnico publicado pela própria Microsoft descreve um pipeline de treinamento que inclui Common Crawl — 24,2 bilhões de páginas após filtragem e deduplicação. O Common Crawl é um repositório aberto de conteúdo raspado da web, mantido por uma organização sem fins lucrativos na Califórnia que não faz representações de licenciamento sobre o material indexado e não remunera detentores de direitos.

Simon Willison, que estava no Build, documentou a contradição em 2 de junho. O The Decoder confirmou a análise em 5 de junho com detalhes adicionais do artigo técnico.

A contradição importa porque “proveniência de dados” foi posicionada como diferenciador para compradores em setores regulados — finanças, saúde, governo — onde a origem do material de treinamento afeta decisões de aquisição. Ao longo de 2026, departamentos jurídicos de grandes empresas têm examinado com atenção crescente a linhagem de dados dos modelos em avaliação.

Separar “sem destilação de modelos de terceiros” (verificável e provavelmente verdadeiro) de “dados comercialmente licenciados” (desmentido pelo próprio artigo técnico) revela uma tensão entre proveniência como argumento de venda e proveniência como disciplina de engenharia. A afirmação técnica sustentável é mais restrita: os modelos MAI não derivam de pesos de outros modelos. A afirmação sobre dados limpos, não.

Viabilidade e riscos da pilha

O que a Microsoft construiu no Build 2026 é uma aposta estrutural. A escolha de MoE com parâmetros ativos baixos, combinada com silício otimizado para inferência esparsa e distribuição cativa via Copilot e Foundry, forma uma pilha onde cada camada depende das outras. Se o Maia 200 entrega a latência e o custo projetados, a economia funciona. Se Polaris mantém qualidade comparável ao GPT-4 Turbo nas tarefas de código que o Copilot serve, a migração é transparente para o usuário.

São condições verificáveis nos próximos meses — a migração automática começa em agosto, com período de fallback de três meses.

O risco técnico é proporcional à ambição. Silício novo em produção carrega incógnitas de rendimento de fabricação, estabilidade térmica e disponibilidade. Modelos próprios sem o histórico de iteração da OpenAI ou da Anthropic em alinhamento e testes adversariais entram em produção com menos quilometragem. E a controvérsia de proveniência de dados, mesmo que não afete o desempenho técnico do modelo, corrói exatamente o argumento que foi usado para diferenciá-lo.

A leitura técnica mais precisa do que aconteceu no Build não é “Microsoft lançou sete modelos.” É que uma empresa com volume suficiente de inferência — dezenas de milhões de licenças do Copilot, Azure Foundry, Windows — decidiu que comprar inferência de terceiros deixou de fazer sentido e internalizou a pilha inteira. Os modelos são um componente dessa decisão, não o produto final.

Referências

Microsoft AI — Introducing MAI-Code-1-Flash
Microsoft AI — Introducing MAI-Thinking-1
Microsoft AI — Build 2026 MAI keynote transcript
TechTimes — MAI-Thinking-1 Is First In-House Reasoning Model, Trained Without OpenAI Data
TechTimes — Microsoft MAI Training Data Includes Common Crawl, Contradicting Build 2026 Claims
Simon Willison — Microsoft’s new MAI models
The Decoder — Microsoft trained its MAI models on unlicensed web data
CNBC — Microsoft unveils new AI models to lessen reliance on OpenAI
ChatForest — Build 2026 Recap: Windows Is Now an Agent Platform
Constellation Research — Microsoft launches Maia 200