Cursor Composer 2.5 mira modelos de codificação com IA de fronteira a menor custo

Um desafio de preços chega ao mercado de modelos de codificação

A Cursor lançou o Composer 2.5, um novo modelo interno de codificação com IA que, segundo a empresa, consegue igualar o desempenho de benchmark de sistemas de fronteira líderes enquanto opera por uma fração do custo. Se essas alegações se confirmarem em fluxos de trabalho reais de desenvolvedores, o lançamento pode intensificar a concorrência em um dos segmentos mais comercialmente ativos da IA generativa.

De acordo com uma reportagem do The Decoder, o Composer 2.5 foi construído sobre o checkpoint de código aberto Kimi K2.5 da Moonshot e foi treinado com 25 vezes mais tarefas sintéticas do que o Composer 2 anterior da Cursor. A Cursor diz que 85 por cento do orçamento de computação foi destinado a treinamento adicional e reinforcement learning, o que sugere que a empresa tratou este lançamento como mais do que um ajuste incremental.

A principal afirmação é a paridade de desempenho. A Cursor informa que o Composer 2.5 alcançou 79,8 por cento no SWE-Bench Multilingual e 63,2 por cento no CursorBench v3.1, pontuações que, segundo a empresa, colocam o modelo ao lado de Opus 4.7 e GPT-5.5 nesses testes. No mercado de modelos de codificação, a paridade de benchmark importa porque muitos clientes agora comparam produtos menos pela fluência linguística ampla e mais por tarefas específicas de software, como correção de bugs, navegação em repositórios e geração confiável de código.

A alegação de custo pode importar ainda mais do que as notas

Benchmarks chamam atenção, mas o argumento comercial mais forte pode ser o preço. A Cursor diz que o Composer 2.5 custa US$ 0,50 por milhão de tokens de entrada e US$ 2,50 por milhão de tokens de saída. Uma variante mais rápida, com o mesmo desempenho reportado, é precificada em US$ 3,00 por milhão de tokens de entrada e US$ 15,00 por milhão de tokens de saída. A empresa afirma que isso coloca os custos típicos por tarefa bem abaixo dos sistemas de ponta concorrentes da Anthropic e da OpenAI.

Isso importa porque assistentes de codificação são incomumente sensíveis ao custo de inferência. Eles frequentemente operam em contextos longos, edições repetidas, loops agênticos e operações com múltiplos arquivos, o que pode fazer o gasto por tarefa crescer rapidamente. Um modelo que se aproxima do topo do mercado, mas reduz materialmente o custo marginal, torna-se atraente não apenas para usuários finais, mas também para construtores de plataformas que precisam de economia viável em escala.

O lançamento, portanto, se encaixa em um padrão mais amplo que está surgindo na infraestrutura de IA: a competição não é mais apenas sobre quem tem o melhor modelo absoluto. Trata-se também de quem consegue entregar desempenho aceitável de fronteira pelo melhor custo operacional. Em codificação, onde os usuários podem comparar saídas diretamente dentro dos produtos, essa troca se torna especialmente visível.

How we used Gemini to build Google I/O 2026

Google detalha como o Gemini ajudou a produzir o I/O 2026

A Google diz que equipes usaram o Gemini e outras ferramentas de IA para ajudar a criar filmes, visuais e elementos do evento do Google I/O 2026, apresentando a conferência como uma vitrine interna de produção assistida por IA.

Read article

Treinamento sintético e integração de produto

O Composer 2.5 também reflete a rapidez com que empresas especializadas em IA estão construindo sobre checkpoints abertos e, depois, se diferenciando por meio de dados de treinamento, reinforcement learning e integração de produto. A descrição da Cursor de 25 vezes mais tarefas sintéticas indica que cargas de trabalho geradas ou construídas programaticamente seguem centrais para melhorar o comportamento de modelos de codificação. O treinamento sintético tornou-se uma das principais alavancas disponíveis para equipes que querem avançar rápido sem depender inteiramente do desenvolvimento proprietário de modelos base.

O modelo já está ativo na Cursor, o que dá ao lançamento distribuição imediata em vez de deixá-lo como um anúncio de pesquisa. Essa é uma distinção importante. Muitas alegações sobre modelos circulam primeiro em artigos ou tabelas de benchmark e só depois chegam ao uso em produção. O Composer 2.5 entra diretamente em um ambiente de codificação em que os usuários podem testar se os ganhos de benchmark se traduzem em melhor assistência prática.

Dito isso, as comparações de benchmark ainda devem ser lidas com cuidado. O texto-fonte relata os números da Cursor e sua alegação de paridade com sistemas rivais nomeados, mas a avaliação no mundo real dependerá de como o modelo lida com sessões mais longas, instruções ambíguas, raciocínio específico de repositório e recuperação de erros em condições de produção. Assistentes de codificação costumam ser julgados menos pela correção em uma única tentativa do que por quão úteis permanecem ao longo de ciclos inteiros de desenvolvimento.

Uma ambição maior por trás do lançamento

O lançamento também é apresentado como parte de um esforço estratégico mais amplo. Segundo a mesma reportagem, a Cursor está treinando do zero um sucessor muito maior com a SpaceX e a xAI, usando dez vezes mais computação no cluster Colossus-2 e um milhão de equivalentes H100. Mesmo que esse projeto ainda seja voltado ao futuro, ele coloca o Composer 2.5 dentro de uma narrativa mais ampla: a Cursor não está apenas integrando modelos externos em um editor, mas tentando se estabelecer como uma construtora de modelos com sua própria agenda de treinamento.

Para o mercado de IA mais amplo, isso importa porque mostra como as empresas de aplicativos estão avançando para baixo na pilha de modelos. Se uma empresa de produto consegue usar bases abertas, treinamento sintético pesado e preços agressivos para produzir um modelo especializado competitivo, ela pressiona os maiores fornecedores de modelos em duas frentes ao mesmo tempo: as expectativas de desempenho continuam altas, enquanto a disposição a pagar preços premium pode enfraquecer.

O Composer 2.5, portanto, parece mais do que uma atualização rotineira de modelo. É um teste de se treinamento focado e implantação nativa no produto podem diminuir a distância para sistemas carro-chefe enquanto reescrevem a economia da codificação com IA. Se os desenvolvedores acharem que o modelo funciona como anunciado, talvez o benchmark mais importante não seja uma pontuação no ranking. Pode ser o preço que força o restante do mercado a responder.

Este artigo é baseado na cobertura do The Decoder. Leia o artigo original.

OpenAI starts with infrastructure robots but aims for "everyone having a personal robot doing anything they need"

A OpenAI está reconstruindo sua área de robótica em torno de trabalho de infraestrutura e de uma visão de consumo de longo prazo

A OpenAI refez sua equipe de robótica, começando por tarefas de infraestrutura, enquanto o CEO Sam Altman descreve uma meta de longo prazo de robôs pessoais para সবাই.

Read article

Originally published on the-decoder.com