O modelo de IA de raciocínio R1 atualizado da Deepseek pode estar recebendo a maior parte da atenção da comunidade de IA nesta semana. Mas o laboratório de IA chinês também lançou uma versão menor e “destilada” de sua nova R1, Deepseek-R1-0528-QWEN3-8B, que as afirma que Deepseek supera modelos de tamanho comparável em certos parâmetros de referência.
O R1 menor atualizado, que foi construído usando o modelo QWEN3-8B Alibaba lançado em maio como fundamento, tem um desempenho melhor do que o Gemini 2.5 Flash do Google no AIME 2025, uma coleção de perguntas de matemática desafiadoras.
Deepseek-R1-0528-QWEN3-8B também quase corresponde ao modelo Phi 4 Raconing Plus, lançado pela Microsoft, em outro teste de habilidades matemáticas, Hmmt.
Os chamados modelos destilados como DeepSeek-R1-0528-QWEN3-8B são geralmente menos capazes do que seus colegas de tamanho normal. No lado positivo, eles são muito menos exigentes computacionalmente. De acordo com Para o NodEshift da plataforma em nuvem, o QWEN3-8B requer uma GPU com 40 GB-80GB de RAM para executar (por exemplo, um NVIDIA H100). As novas necessidades de R1 de tamanho normal Cerca de uma dúzia de GPUs de 80 GB.
O Deepseek treinou Deepseek-R1-0528-QWEN3-8B tomando texto gerado pelo R1 atualizado e usando-o para ajustar QWEN3-8B. Em uma página da Web dedicada para o modelo na plataforma de dev abra-se da plataforma AI, o Deepseek descreve o DeepSeek-R1-0528-QWEN3-8B como “para pesquisas acadêmicas sobre modelos de raciocínio e desenvolvimento industrial focados em modelos de pequena escala”.
Deepseek-R1-0528-QWEN3-8B está disponível sob uma licença permissiva do MIT, o que significa que pode ser usado comercialmente sem restrição. Vários anfitriões, incluindo LM Studiojá oferece o modelo através de uma API.