Voltar ao blog

Decoupled DiLoCo: quando pré-treinamento distribuído aceita consistência parcial para não desperdiçar computação

inteligencia-artificial llm treinamento-distribuido mlops sistemas-distribuidos deepmind

Treinar modelos de linguagem em larga escala ainda depende, em grande parte, de uma suposição herdada dos clusters síncronos: todos os aceleradores avançam juntos, compartilham uma visão consistente dos pesos e esperam uns pelos outros nos pontos de sincronização. Esse desenho funciona bem quando a malha de comunicação é rápida, homogênea e confiável. O problema aparece quando a escala deixa de ser apenas “mais GPUs” ou “mais TPUs” e passa a envolver milhares de componentes, várias regiões, gerações diferentes de chip e falhas que deixam de ser exceção. Nesse regime, consistência rígida pode virar desperdício de computação.

O Decoupled DiLoCo, publicado pelo Google DeepMind em 23 de abril de 2026, é relevante por atacar essa suposição na raiz. A proposta não é um novo modelo de linguagem, nem uma técnica de compressão isolada. O ponto técnico é tratar o pré-treinamento como um sistema distribuído que aceita consistência parcial para preservar disponibilidade. O artigo formula a crítica ao paradigma SPMD, no qual um único atraso ou falha pode bloquear o progresso global, e propõe decompor o treinamento em “learners” assíncronos coordenados por um sincronizador central. A tese técnica é clara: em determinada escala, o gargalo de treinamento deixa de ser apenas capacidade bruta de computação e passa a ser a quantidade de passos úteis que o sistema consegue sustentar sob falhas, latência e heterogeneidade.

O DiLoCo original e o problema da largura de banda

A base dessa ideia já vinha do DiLoCo original, publicado em 2023. O método mostrou que era possível treinar modelos de linguagem em ilhas de computação mal conectadas, usando muitos passos locais com AdamW e sincronizações mais raras por meio de um otimizador externo com momentum de Nesterov. No dataset C4, o DiLoCo com 8 workers apresentou desempenho comparável ao treinamento síncrono comunicando 500 vezes menos. Esse resultado resolvia uma parte importante do problema: largura de banda.

Mas ainda havia uma barreira estrutural. Mesmo comunicando menos, as versões anteriores continuavam presas a sincronizações globais em momentos críticos. Reduzir comunicação não é o mesmo que remover a dependência de todos estarem disponíveis ao mesmo tempo. Se um worker falha durante uma sincronização obrigatória, todos param. A economia de banda não elimina o ponto único de bloqueio.

Trabalhos intermediários como o Streaming DiLoCo avançaram na direção de sobrepor comunicação e computação, fragmentando a troca de parâmetros para reduzir picos de banda. O OpenDiLoCo ofereceu uma implementação open-source que permitiu reproduzir parcialmente os resultados em ambientes fora do Google. Essas contribuições foram incrementais, mas não resolviam o problema de disponibilidade: o treinamento continuava dependendo de todos os participantes estarem prontos nos momentos de sincronização.

O que muda no Decoupled DiLoCo

O Decoupled DiLoCo muda esse ponto fundamental. Cada learner executa otimização local sobre seu shard de dados e se comunica com o sincronizador em segundo plano. A comunicação é fragmentada: em vez de sincronizar o modelo inteiro de uma vez, o sistema troca partes dos parâmetros em momentos diferentes. O sincronizador não espera todos os learners. Ele usa quórum mínimo, janela adaptativa de espera e fusão ponderada por tokens para agregar atualizações mesmo quando alguns learners estão lentos, indisponíveis ou voltando de uma falha.

A consequência é que a falha de uma ilha não obriga o restante do cluster a parar. O “raio de explosão” de uma interrupção fica local, enquanto o treinamento global continua avançando. Essa propriedade é análoga ao que sistemas distribuídos tradicionais chamam de isolamento de falhas — mas aplicada ao processo de otimização de um modelo de linguagem.

O custo de relaxar consistência

Essa escolha não é gratuita. Relaxar consistência significa aceitar parâmetros parcialmente obsoletos, velocidades diferentes entre learners e estados locais que divergem antes de serem reconciliados. Por isso o desenho algorítmico importa tanto quanto a arquitetura de sistema.

O artigo combina vários mecanismos para manter a qualidade do modelo apesar da assincronicidade:

  • Fragmentação balanceada de tensores: em vez de sincronizar o modelo inteiro de uma vez, os parâmetros são divididos em fragmentos que circulam em momentos diferentes, distribuindo a carga de comunicação ao longo do tempo.
  • Radial-Directional Averaging: o método de fusão de atualizações que o sincronizador usa para combinar contribuições de learners que podem estar em estados ligeiramente diferentes.
  • Quórum mínimo: o sincronizador não espera todos os learners — um subconjunto suficiente basta para compor uma atualização global. Learners ausentes ou lentos não bloqueiam o progresso.
  • Grace window adaptativa: uma janela de espera que se ajusta para equilibrar entre agregar informação suficiente e não transformar o learner mais lento em gargalo.

Esses detalhes são o que impedem a proposta de ser apenas “treinamento assíncrono” em sentido genérico. O objetivo é preservar qualidade de modelo enquanto se troca consistência imediata por disponibilidade operacional.

Números de goodput e largura de banda

Os números publicados tornam o tema mais substancial. Em um experimento com modelo denso de 5B parâmetros treinado em 1T tokens, sob falhas simuladas, o Decoupled DiLoCo manteve 88% de goodput em um cenário de 1,2 milhão de chips simulados, enquanto o data-parallel elástico chegou a 58%. A métrica importa porque mede a fração do cluster fazendo trabalho útil, não apenas a acurácia final. No mesmo conjunto de resultados, as médias em tarefas de texto e visão permaneceram comparáveis às do baseline data-parallel. O ganho, portanto, não vem de aceitar um modelo pior para treinar mais rápido. Vem de desperdiçar menos computação quando o sistema real deixa de se comportar como um cluster ideal.

A redução de largura de banda reforça o argumento. Para um modelo de 5B parâmetros, com 8 datacenters, step time de 1 segundo e meta de 95% de utilização de computação, o data-parallel exige 198 Gbps; o Decoupled DiLoCo com comunicação int4 exige 0,84 Gbps. A diferença — mais de 236 vezes — é grande o suficiente para mudar o tipo de infraestrutura viável. Com data-parallel tradicional, treinar entre regiões distantes tende a exigir interconexão planejada como parte central do cluster. Com sincronização fragmentada e assíncrona, compute “imperfeito” passa a ser aproveitável: capacidade temporária, recursos em regiões diferentes, ou chips que não teriam banda suficiente para participar de uma execução síncrona.

Hardware heterogêneo como caso de teste

O artigo também testa uma consequência prática importante: hardware heterogêneo. Em um experimento misturando TPUv5e e TPUv5p, o sistema usa quórum mínimo e janela adaptativa para mascarar diferenças de velocidade. Sem essa janela, o sincronizador pode agregar informação pobre demais ou sincronizar com frequência excessiva. Com a janela, os learners continuam avançando e o sincronizador espera o suficiente para compor atualizações melhores, sem transformar o learner mais lento em gargalo global.

Esse resultado é tecnicamente relevante porque a infraestrutura de IA raramente envelhece de forma uniforme. Novas gerações de chip entram em produção antes que as antigas desapareçam, e a capacidade disponível em uma organização tende a ser fragmentada por região, contrato, prioridade e geração de hardware. Um sistema de treinamento que exige homogeneidade perfeita descarta capacidade que poderia contribuir para o progresso do modelo.

Escala de avaliação e pós-treinamento

A avaliação de escala ainda é limitada, mas não é trivial. O paper reporta modelos densos de 2B, 5B e 9B parâmetros, além de arquiteturas Mixture-of-Experts com 2,8B e 3,8B parâmetros ativos. Também há avaliação pós-treinamento em checkpoints de 5B pré-treinados em 1T tokens, usando uma versão leve da receita do Gemma 4, com resultados comparáveis em MMLU-Pro, GMMLU, GSM8K e HumanEval.

Isso não prova que a técnica já substitui o treinamento síncrono em todos os modelos frontier. Prova algo mais específico: a perda de sincronização estrita não destruiu, nesses regimes testados, a capacidade posterior de adaptação do modelo. Os checkpoints pré-treinados com consistência parcial continuaram respondendo bem ao fine-tuning supervisionado e ao alinhamento, o que indica que a trajetória de otimização assíncrona não introduziu danos estruturais irrecuperáveis nos pesos.

Implicações para a engenharia de treinamento

A implicação para profissionais de tecnologia é menos sobre “treinar modelos maiores” e mais sobre como pensar o stack de treinamento. Em modelos grandes, a fronteira entre algoritmo e infraestrutura fica menos nítida. O otimizador passa a incorporar propriedades clássicas de sistemas distribuídos: disponibilidade, tolerância a partições, recuperação, quórum, staleness e controle de backpressure.

Isso muda a natureza das decisões técnicas. Uma falha de chip deixa de ser apenas problema de SRE; vira variável que afeta batch efetivo, trajetória de otimização, custo de wall-clock e qualidade final. Um link de rede deixa de ser apenas detalhe de datacenter; vira restrição sobre o regime de sincronização possível. A separação tradicional entre “quem cuida do hardware” e “quem cuida do algoritmo” perde sentido quando o algoritmo precisa saber que o hardware é imperfeito.

Trade-offs e limitações

Também há trade-offs claros que delimitam o escopo da proposta.

O sincronizador central ainda é uma peça crítica do desenho. Se ele falha, o sistema perde a capacidade de agregar atualizações globais. A política de quórum, a janela adaptativa, o método de fusão e a fragmentação dos pesos viram hiperparâmetros de sistema e de treinamento ao mesmo tempo — uma superfície de configuração que não existia no treinamento síncrono e que precisa ser ajustada por regime de escala e perfil de falhas.

Learners que retornam com parâmetros obsoletos precisam ser reintegrados sem desestabilizar a trajetória global. A comunicação int4 reduz banda, mas adiciona uma decisão de quantização no caminho de atualização. A avaliação foi feita em modelos de até 9B parâmetros — não há evidência publicada de que os mesmos trade-offs se mantenham em escalas de centenas de bilhões de parâmetros, onde a dinâmica de otimização pode ser diferente.

Esses pontos não diminuem o resultado; eles delimitam onde a técnica precisa ser avaliada antes de virar padrão operacional.

Consistência parcial como princípio de engenharia

O valor do Decoupled DiLoCo está em tornar explícita uma tensão que tende a crescer: quanto maior o treinamento, menos realista é tratar o cluster como uma máquina síncrona perfeita. A engenharia de IA sempre buscou mais escala, mas a escala útil depende de conseguir continuar aprendendo quando partes do sistema falham, atrasam ou aparecem temporariamente.

Ao relaxar consistência de forma controlada e medir o efeito em goodput, banda e qualidade de modelo, o trabalho desloca a discussão para um ponto mais concreto: pré-treinamento moderno não é apenas paralelizar matrizes; é desenhar um processo de otimização que sobreviva às imperfeições físicas da infraestrutura onde ele roda.

Referências