Em janeiro de 2025, a DeepSeek fez o que muitos achavam impossível: lançou dois modelos open source sob licença MIT que competem diretamente com os melhores modelos proprietários do mundo — a uma fração do custo de desenvolvimento.
O impacto foi imediato. As ações de empresas de chips e infraestrutura de IA despencaram. A premissa de que IA de ponta exigia bilhões em compute havia sido questionada.
DeepSeek V3 é o modelo de uso geral. Com 671 bilhões de parâmetros totais em arquitetura MoE (Mixture of Experts), ativa apenas 37 bilhões por token. É um modelo de propósito amplo — raciocínio, geração de texto, código, análise.
DeepSeek R1 usa a mesma arquitetura, mas é especializado em raciocínio passo a passo. Foi treinado com uma técnica chamada GRPO (Group Relative Policy Optimization), sem depender de supervisão humana extensa — o que reduziu drasticamente o custo de treinamento.
Os benchmarks foram decisivos:
O DeepSeek R1-0528, atualização lançada em maio de 2025, trouxe ganhos expressivos em matemática, lógica e codificação. Em alguns benchmarks, superou modelos como o GPT-4o.
Lançado em dezembro de 2025, o V3.2 introduziu algo novo: integração direta de raciocínio em fluxos de uso de ferramentas. O modelo não apenas raciocina — ele raciocina enquanto usa ferramentas externas.
O V3.2-Speciale, variante focada em matemática, alcançou desempenho de medalha de ouro em três das competições mais difíceis do mundo em 2025: IMO (Olimpíada Internacional de Matemática), IOI (Olimpíada Internacional de Informática) e ICPC World Finals.
Ambos os modelos — V3 e R1 — são licenciados sob MIT, a licença mais permissiva do ecossistema open source. Uso comercial irrestrito, modificação, redistribuição — tudo permitido.
Isso os torna especialmente atraentes para empresas que precisam customizar modelos sem restrições de licença.
Para times de tecnologia e datacenters, o DeepSeek R1 representa uma mudança concreta: capacidade de raciocínio equivalente a modelos proprietários de ponta, executável em infraestrutura própria, com custo de inferência controlado.
A DeepSeek demonstrou que eficiência de treinamento pode substituir escala bruta. Mais dados melhores e técnicas de otimização podem fazer mais do que simplesmente aumentar o número de parâmetros.
A DeepSeek redefiniu o que é possível no open source. R1 e V3.2 não são alternativas baratas — são concorrentes diretos dos melhores modelos do mundo.
E com licença MIT, eles estão disponíveis para qualquer pessoa construir sobre eles.
Fontes:
Publicado no Hive.blog | #pt-br #inteligenciaartificial #llm