Por anos, a narrativa foi a mesma: modelos open source ficam 6 a 12 meses atrás dos proprietários. Eram bons para prototipagem, adequados para casos de uso simples, necessários para quem tem restrições de privacidade — mas não eram a melhor escolha se você precisasse do desempenho máximo disponível.
Em 2026, essa narrativa chegou ao fim. Não como hipérbole, mas como fato verificável em benchmarks públicos.
Quatro lançamentos em poucos meses definiram o ponto de inflexão:
DeepSeek V4 Pro (MIT, abril de 2026): 1,6 trilhão de parâmetros, 49 bilhões ativos, 80,6% SWE-Bench Verified — equivalente ao Claude Opus 4.6 proprietário.
Llama 4 Maverick (Meta Llama License, abril de 2026): 400 bilhões totais, 17 bilhões ativos, melhor que GPT-4o e Gemini 2.0 Flash em benchmarks multimodais, contexto de 1 milhão de tokens.
Gemma 4 (Apache 2.0, abril de 2026): quatro tamanhos, do menor ao maior, todos com capacidades multimodais. O Google liberando sob Apache 2.0 — uma das licenças mais permissivas disponíveis.
Mistral Medium 3.5 (MIT modificada, maio de 2026): 128 bilhões denso, 77,6% SWE-Bench, roda em quatro GPUs.
Um padrão técnico une os maiores lançamentos open source de 2026: quase todos usam Mixture of Experts. DeepSeek V4 Pro (1,6T total / 49B ativos), Llama 4 Maverick (400B / 17B), Qwen 3.5 da Alibaba (397B / 17B), Llama 4 Scout (109B / 17B).
O MoE resolveu o problema fundamental que limitava o open source: como ter capacidade de modelo grande com custo de inferência de modelo pequeno. A resposta foi ter muitos especialistas e ativar apenas uma fração em cada token processado.
O resultado prático: um modelo de 400 bilhões de parâmetros que custa para inferir como um modelo de 17 bilhões. Essa eficiência foi o que tornou viável ter modelos de fronteira rodando em hardware que organizações reais conseguem operar.
Modelo | Tipo | SWE-Bench | Licença | Custo Input (API) |
|---|---|---|---|---|
Claude Opus 4.7 | Fechado | 87,6% | Proprietária | US$ 5,00/M |
GPT-5.5 | Fechado | ~85% | Proprietária | ~US$ 5,00/M |
DeepSeek V4 Pro | Aberto | 80,6% | MIT | US$ 0,30/M |
Gemini 3.1 Pro | Fechado | 80,6% | Proprietária | US$ 2,00/M |
Llama 4 Maverick | Aberto | ~78% | Meta Llama | Self-host |
Mistral Medium 3.5 | Aberto | 77,6% | MIT mod. | US$ 1,50/M |
O padrão é claro: os melhores modelos abertos chegam a 77-80% do benchmark principal de produção, enquanto os fechados estão em 85-88%. A diferença existe — mas é de 7 a 10 pontos percentuais, não de uma geração inteira.
A abertura técnica do código não equivale à abertura legal do uso. Em 2026, as principais licenças do ecossistema têm diferenças práticas importantes:
MIT (DeepSeek V4, partes do Mistral): A mais aberta. Uso comercial irrestrito, sem obrigações de compartilhar modificações, sem restrições por tamanho de empresa.
Apache 2.0 (Gemma 4): Similar à MIT em liberdade de uso, com proteção de patentes explícita. Padrão corporativo de fato para projetos de código aberto.
Meta Llama License: Permite uso comercial para a maioria, mas empresas acima de 700 milhões de MAU precisam de licença especial. Usuários da União Europeia estavam restritos no lançamento. Não é open source no sentido técnico da OSI.
Para compliance legal, a distinção importa. Para a maioria das empresas, MIT e Apache 2.0 são equivalentes na prática. A Meta Llama License exige análise caso a caso.
Antes de 2026, a decisão de usar modelo proprietário versus open source tinha dois componentes: capacidade técnica (fechados eram melhores) e custo/privacidade (abertos eram mais baratos e privados).
Em 2026, o componente de capacidade técnica quase desapareceu para a maioria dos casos de uso. A decisão agora é:
Use modelo via API proprietária quando: suporte empresarial é necessário, SLAs são exigidos, a integração com o ecossistema (Azure, Google Cloud) tem valor, ou o caso de uso específico está nos 7-10 pontos percentuais superiores que apenas o Opus 4.7 ou GPT-5.5 entregam.
Use modelo open source quando: privacidade de dados é não-negociável, volume é alto o suficiente para o custo de API ser relevante, customização via fine-tuning é necessária, ou você quer eliminar dependência de fornecedor.
Outra mudança estrutural de 2026: o ritmo de lançamentos. Em abril e maio de 2026, foram lançados DeepSeek V4, Llama 4 Scout/Maverick, Gemma 4 (4 variantes), Mistral Medium 3.5, Claude Opus 4.7, GPT-5.5, Grok 4.3 e Qwen 3.6 Plus — todos em cerca de 60 dias.
Esse ritmo tem implicações para quem toma decisões de plataforma. Escolhas feitas em janeiro de 2026 podem estar desatualizadas em março. A estratégia de "escolher o melhor modelo e fixar" está sendo substituída por arquiteturas de abstração que permitem trocar modelos sem refatorar a aplicação.
O ecossistema de LLMs em maio de 2026 é fundamentalmente diferente de um ano atrás. Open source chegou à fronteira. Licenças verdadeiramente abertas como MIT estão em modelos de capacidade de produção. O custo por token caiu entre 5x e 10x para casos de uso equivalentes.
Para quem constrói infraestrutura de IA, o desafio de 2026 não é mais acesso à capacidade — é escolha entre abundância. E isso, em comparação com o que existia antes, é um problema muito melhor de ter.