Em abril de 2026, a Meta lançou o Llama 4 Scout e o Llama 4 Maverick — os primeiros modelos open source nativa e genuinamente multimodais, com arquitetura Mixture of Experts, e a maior janela de contexto já disponível em qualquer modelo: 10 milhões de tokens no Scout. No mesmo mês, a DeepSeek lançou o V4 com 1.6 trilhão de parâmetros totais e 49 bilhões ativos — o maior modelo open source da história em termos de parâmetros totais. A tese de 2024 — "open source está 2 anos atrás do fechado" — precisou ser revisada.
O Llama 4 chegou com dois modelos disponíveis e um terceiro em desenvolvimento.
O Scout tem 17 bilhões de parâmetros ativos e 16 especialistas (109B totais). A janela de contexto de 10 milhões de tokens é o número mais impressionante do lançamento — equivalente a processar uma biblioteca de pesquisa inteira, um repositório de código completo de uma empresa, ou vários anos de transcrições de reuniões em uma única chamada. Cabe em uma GPU H100 com quantização INT4. É multimodal por padrão: processa texto, imagem, áudio e vídeo.
O Maverick usa os mesmos 17B parâmetros ativos mas com 128 especialistas e 400 bilhões de parâmetros totais. O contexto é de 1 milhão de tokens. No LMArena — comparação cega de preferências humanas — marcou Elo 1.417, superando GPT-4o e Gemini 2.0 Flash. GPQA Diamond: 69.8%.
O Behemoth, com 288 bilhões de parâmetros ativos e estimados 2 trilhões totais, foi anunciado em treinamento em abril de 2025. Em abril de 2026, ainda não foi lançado publicamente — instabilidades no roteamento MoE em escala têm sido reportadas como fator de atraso.
Licença: A Llama 4 Community License permite uso comercial para organizações com menos de 700 milhões de usuários ativos mensais. Atribuição obrigatória. Uso de capacidades de visão restrito para entidades domiciliadas na União Europeia.
O DeepSeek V4 representa a maior ambição técnica da DeepSeek até hoje. O V4-Pro tem 1.6 trilhão de parâmetros totais com 49 bilhões ativos por inferência — ratio de ativação de apenas 3%, o mais eficiente da indústria. O V4-Flash usa 284 bilhões totais com 13 bilhões ativos.
A principal inovação arquitetural é a Compressed Sparse Attention (CSA): tokens são comprimidos em representações sumárias, e cada novo token atende apenas aos top-k mais relevantes em vez de toda a sequência. Isso permite contexto de 1 milhão de tokens com consumo de memória gerenciável. O V4-Pro-Max marcou 80.6% no SWE-Bench Verified — o maior score já registrado em resolução autônoma de bugs em código real.
Preço e licença: V4-Flash a US$ 0.14/M tokens de entrada; V4-Pro a US$ 1.74/M. Ambos sob MIT ou Apache 2.0 — completamente livres para uso comercial, modificação e redistribuição. O V4 foi treinado em hardware Huawei Ascend em vez de GPUs NVIDIA, demonstrando que a dependência de infraestrutura americana pode ser contornada.
A Alibaba entrou em 2026 com o Qwen 3.5-397B, um modelo MoE com 17 bilhões de parâmetros ativos e 512 especialistas. O contexto nativo é de 262 mil tokens com extensão para 1 milhão. O modelo supera o GPT-5.2 no IFBench — benchmark de seguimento de instruções — com 76.5 vs. 75.4. O Qwen3.5-9B (apenas 9B parâmetros) supera o GPT-OSS-120B no GPQA Diamond: 81.7% vs. 71.5%.
A licença é Apache 2.0, com a única restrição sendo um processo de aprovação para operadores com mais de 100 milhões de usuários mensais.
A diferença entre modelos open source e fechados é agora mais nuançada do que "melhor vs. pior". Em benchmarks de matemática pura (AIME), o DeepSeek V3.2 marca 96.0% — comparável ao GPT-5.2. Em seguimento de instruções, o Qwen 3.5 supera modelos proprietários da OpenAI. Em custo por inferência auto-hospedada, a vantagem é de 10 a 100 vezes versus APIs fechadas.
O gap persiste em tarefas agentivas complexas (benchmarks como Terminal-Bench e SWE-Bench Pro), em segurança e alinhamento (modelos open source têm menos validação pública), e em multimodalidade avançada (vídeo nativo ainda limitado no ecossistema aberto).
A implicação estratégica para gestores de tecnologia é clara: para workloads de alto volume, privacidade regulada, ou customização vertical profunda, a auto-hospedagem de modelos open source de fronteira passou de opção experimental para alternativa concretamente competitiva.