Llama 4 e DeepSeek V4: open source chegou na fronteira de verdade

Llama 4: a família Meta

O Llama 4 chegou com dois modelos disponíveis e um terceiro em desenvolvimento.

O Scout tem 17 bilhões de parâmetros ativos e 16 especialistas (109B totais). A janela de contexto de 10 milhões de tokens é o número mais impressionante do lançamento — equivalente a processar uma biblioteca de pesquisa inteira, um repositório de código completo de uma empresa, ou vários anos de transcrições de reuniões em uma única chamada. Cabe em uma GPU H100 com quantização INT4. É multimodal por padrão: processa texto, imagem, áudio e vídeo.

O Maverick usa os mesmos 17B parâmetros ativos mas com 128 especialistas e 400 bilhões de parâmetros totais. O contexto é de 1 milhão de tokens. No LMArena — comparação cega de preferências humanas — marcou Elo 1.417, superando GPT-4o e Gemini 2.0 Flash. GPQA Diamond: 69.8%.

O Behemoth, com 288 bilhões de parâmetros ativos e estimados 2 trilhões totais, foi anunciado em treinamento em abril de 2025. Em abril de 2026, ainda não foi lançado publicamente — instabilidades no roteamento MoE em escala têm sido reportadas como fator de atraso.

Licença: A Llama 4 Community License permite uso comercial para organizações com menos de 700 milhões de usuários ativos mensais. Atribuição obrigatória. Uso de capacidades de visão restrito para entidades domiciliadas na União Europeia.

DeepSeek V4: fronteira a custo aberto

O DeepSeek V4 representa a maior ambição técnica da DeepSeek até hoje. O V4-Pro tem 1.6 trilhão de parâmetros totais com 49 bilhões ativos por inferência — ratio de ativação de apenas 3%, o mais eficiente da indústria. O V4-Flash usa 284 bilhões totais com 13 bilhões ativos.

A principal inovação arquitetural é a Compressed Sparse Attention (CSA): tokens são comprimidos em representações sumárias, e cada novo token atende apenas aos top-k mais relevantes em vez de toda a sequência. Isso permite contexto de 1 milhão de tokens com consumo de memória gerenciável. O V4-Pro-Max marcou 80.6% no SWE-Bench Verified — o maior score já registrado em resolução autônoma de bugs em código real.

Preço e licença: V4-Flash a US$ 0.14/M tokens de entrada; V4-Pro a US$ 1.74/M. Ambos sob MIT ou Apache 2.0 — completamente livres para uso comercial, modificação e redistribuição. O V4 foi treinado em hardware Huawei Ascend em vez de GPUs NVIDIA, demonstrando que a dependência de infraestrutura americana pode ser contornada.

Qwen 3.5: a aposta da Alibaba

A Alibaba entrou em 2026 com o Qwen 3.5-397B, um modelo MoE com 17 bilhões de parâmetros ativos e 512 especialistas. O contexto nativo é de 262 mil tokens com extensão para 1 milhão. O modelo supera o GPT-5.2 no IFBench — benchmark de seguimento de instruções — com 76.5 vs. 75.4. O Qwen3.5-9B (apenas 9B parâmetros) supera o GPT-OSS-120B no GPQA Diamond: 81.7% vs. 71.5%.

A licença é Apache 2.0, com a única restrição sendo um processo de aprovação para operadores com mais de 100 milhões de usuários mensais.

O que mudou na competitividade open source

A diferença entre modelos open source e fechados é agora mais nuançada do que "melhor vs. pior". Em benchmarks de matemática pura (AIME), o DeepSeek V3.2 marca 96.0% — comparável ao GPT-5.2. Em seguimento de instruções, o Qwen 3.5 supera modelos proprietários da OpenAI. Em custo por inferência auto-hospedada, a vantagem é de 10 a 100 vezes versus APIs fechadas.

O gap persiste em tarefas agentivas complexas (benchmarks como Terminal-Bench e SWE-Bench Pro), em segurança e alinhamento (modelos open source têm menos validação pública), e em multimodalidade avançada (vídeo nativo ainda limitado no ecossistema aberto).

A implicação estratégica para gestores de tecnologia é clara: para workloads de alto volume, privacidade regulada, ou customização vertical profunda, a auto-hospedagem de modelos open source de fronteira passou de opção experimental para alternativa concretamente competitiva.