Um análise Por Epoch AI, um Instituto de Pesquisa de IA sem fins lucrativos, sugere que a indústria da IA pode não ser capaz de obtê -las enormes ganhos de modelos de IA de raciocínio por muito mais tempo. Assim que dentro de um ano, o progresso dos modelos de raciocínio pode desacelerar, de acordo com as descobertas do relatório.
Modelos de raciocínio como o OpenAI da O3 levaram a ganhos substanciais nos benchmarks de IA nos últimos meses, principalmente os benchmarks medindo habilidades de matemática e programação. Os modelos podem aplicar mais computação a problemas, o que pode melhorar seu desempenho, com a desvantagem que eles levam mais tempo que os modelos convencionais para concluir as tarefas.
Os modelos de raciocínio são desenvolvidos primeiro treinando um modelo convencional em uma quantidade enorme de dados e depois aplicando uma técnica chamada Aprendizagem de Reforço, que efetivamente fornece ao modelo “feedback” sobre suas soluções para problemas difíceis.
Até agora, os laboratórios de AI de fronteira como o OpenAI não aplicaram uma enorme quantidade de poder de computação ao estágio de aprendizado de reforço do treinamento do modelo de raciocínio, de acordo com a Epoch.
Isso está mudando. A Openai disse que aplicou cerca de 10x a mais de computação para treinar O3 do que seu antecessor, O1 e Epoch especula que a maior parte dessa computação foi dedicada ao aprendizado de reforço. E o pesquisador do Openai Dan Roberts revelou recentemente que os planos futuros da empresa exigem priorizando o aprendizado de reforço Para usar muito mais poder de computação, ainda mais do que para o treinamento inicial do modelo.
Mas ainda há um limite superior a quanta computação pode ser aplicada ao aprendizado de reforço, por época.

Josh You, analista da Epoch e autor da análise, explica que os ganhos de desempenho do treinamento de modelos de IA padrão estão atualmente quadruplicando todos os anos, enquanto os ganhos de desempenho do aprendizado de reforço estão crescendo dez vezes a cada 3-5 meses. O progresso do treinamento de raciocínio “provavelmente convergirá com a fronteira geral até 2026”, continua ele.
Evento do TechCrunch
Berkeley, CA.
|
5 de junho
Reserve agora
A análise da Epoch faz uma série de suposições e se baseia em parte dos comentários públicos dos executivos da empresa de IA. Mas também afirma que os modelos de raciocínio de escala podem ser desafiadores por razões, além de computação, incluindo altos custos indiretos para a pesquisa.
“Se houver um custo de sobrecarga persistente para a pesquisa, os modelos de raciocínio podem não escalar na medida do esperado”, escreve você. “A escala rápida de computação é potencialmente um ingrediente muito importante no progresso do modelo de raciocínio, por isso vale a pena rastrear isso de perto”.
Qualquer indicação de que os modelos de raciocínio possam atingir algum tipo de limite em um futuro próximo provavelmente preocupará o setor de IA, que investiu enormes recursos desenvolvendo esses tipos de modelos. Os estudos já mostraram que os modelos de raciocínio, que podem ser incrivelmente caros de correr, têm falhas sérias, como uma tendência a alucinar mais do que certos modelos convencionais.