19 C
Munique
segunda-feira, junho 16, 2025

O Codex do OpenAI faz parte de uma nova coorte de ferramentas de codificação Agentic

Must read


Na sexta -feira passada, o OpenAI introduziu um novo sistema de codificação chamado Codex, projetado para executar tarefas complexas de programação a partir de comandos de linguagem natural. O Codex se move o OpenAI para uma nova coorte de ferramentas de codificação Agentic que estão apenas começando a tomar forma.

Do copiloto inicial do Github a ferramentas contemporâneas como Cursor e Windsurf, a maioria dos assistentes de codificação de IA opera como uma forma excepcionalmente inteligente de preenchimento automático. As ferramentas geralmente vivem em um ambiente de desenvolvimento integrado, e os usuários interagem diretamente com o código gerado pela IA. A perspectiva de simplesmente atribuir uma tarefa e retornar quando terminar está em grande parte fora de alcance.

Mas essas novas ferramentas de codificação agêntica, lideradas por produtos como DevinAssim, Swe-agentAssim, Abertoe o Codex OpenAI acima mencionado, foi projetado para funcionar sem que os usuários tenham que ver o código. O objetivo é operar como o gerente de uma equipe de engenharia, atribuindo problemas por meio de sistemas de trabalho como Asana ou Slack e checando quando uma solução é alcançada.

Para os crentes nas formas de IA altamente capaz, é a próxima etapa lógica em uma progressão natural da automação, assumindo cada vez mais o trabalho de software.

“No começo, as pessoas acabaram de escrever código pressionando cada pressionamento de teclas”, explica Kilian Lieret, pesquisadora de Princeton e membro da equipe do Swe-Agent. “O Github Copilot foi o primeiro produto que ofereceu um verdadeiro recompensado automático, que é uma espécie de estágio dois. Você ainda está absolutamente no circuito, mas às vezes pode levar um atalho”.

O objetivo dos sistemas Agentic é ir além dos ambientes de desenvolvedor completamente, apresentarem os agentes de codificação um problema e deixando -os resolvê -lo por conta própria. “Peltamos as coisas de volta à camada de gerenciamento, onde eu apenas atribuo um relatório de bug e o bot tenta corrigi -lo completamente”, diz Lieret.

É um objetivo ambicioso e, até agora, é difícil.

Depois que Devin ficou geralmente disponível no final de 2024, desenhou Scathing crítica de especialistas do YouTube, bem como uma crítica mais medida de um cliente inicial em Answer.ai. A impressão geral foi familiar para os veteranos codificadores de vibração: com tantos erros, supervisionar os modelos exige tanto trabalho quanto a tarefa manualmente. (Embora o lançamento de Devin tenha sido um pouco rochoso, ele não impediu que a captação de recursos reconhecesse o potencial – em março, a empresa controladora de Devin, a cognição AI, supostamente levantou centenas de milhões de dólares em uma avaliação de US $ 4 bilhões.)

Até os apoiadores da tecnologia alertam contra a codificação de vibração não supervisionada, vendo os novos agentes de codificação como elementos poderosos em um processo de desenvolvimento supervisionado pelo ser humano.

“No momento, e eu diria que, no futuro próximo, um humano precisa intervir no horário de revisão do código para analisar o código que foi escrito”, diz Robert Brennan, CEO da All Hands AI, que mantém os Openhands. “Vi várias pessoas se mexeram em uma bagunça apenas aprovando automaticamente todo código que o agente escreve. Ele fica fora de controle rápido.”

As alucinações também são um problema em andamento. Brennan lembra um incidente no qual, quando perguntado sobre uma API que foi divulgada após o corte de dados de treinamento do agente do OpenHands, o agente fabricou detalhes de uma API que se encaixa na descrição. Todas as mãos Ai diz que está trabalhando em sistemas para capturar essas alucinações antes que possam causar danos, mas não há uma solução simples.

Indiscutivelmente a melhor medida do progresso da programação agêntica é o SWE-BEMN LIGERALDAÇÕESonde os desenvolvedores podem testar seus modelos em relação a um conjunto de questões não resolvidas dos repositórios abertos do GitHub. Atualmente, o OpenHands mantém o primeiro lugar na tabela de classificação verificada, resolvendo 65,8% do conjunto de problemas. O OpenAI afirma que um dos modelos que alimenta o Codex, Codex-1, pode fazer melhor, listando uma pontuação de 72,1% em seu anúncio-embora a pontuação tenha vindo com algumas advertências e não tenha sido verificada independentemente.

A preocupação entre muitos no setor de tecnologia é que as altas pontuações de referência não se traduzem necessariamente em codificação agêntica verdadeiramente entrega. Se os codificadores Agentic só puderem resolver três em cada quatro problemas, eles precisarão de supervisão significativa dos desenvolvedores humanos – principalmente ao enfrentar sistemas complexos com vários estágios.

Como a maioria das ferramentas de IA, a esperança é que as melhorias nos modelos de fundação entrem em um ritmo constante, permitindo que os sistemas de codificação Agentic se transformem em ferramentas de desenvolvedor confiáveis. Mas encontrar maneiras de gerenciar alucinações e outros problemas de confiabilidade será crucial para chegar lá.

“Acho que há um pouco de efeito de barreira de som”, diz Brennan. “A questão é: quanta confiança você pode mudar para os agentes, para que eles tirem mais da sua carga de trabalho no final do dia?”



Link da Fonte

- Advertisement -spot_img

More articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -spot_img

Latest article