Forum AI de Campbell Brown aposta em benchmarks de especialistas para respostas de IA de alto risco

Campbell Brown quer que a camada de informação da IA seja julgada por especialistas, não por métricas de engajamento

Campbell Brown passou anos no negócio de decidir como a informação é exibida, verificada e em quem se confia online. Agora, ela defende que o próximo gargalo de informação não são os feeds das redes sociais, mas os sistemas de IA generativa, e que o setor ainda não trata o problema com a seriedade necessária. Sua nova empresa, Forum AI, parte de uma premissa simples: se os grandes modelos estão se tornando um canal principal por meio do qual as pessoas entendem o mundo, então suas respostas sobre assuntos sensíveis precisam ser testadas contra padrões desenhados por especialistas da área.

A preocupação de Brown não é abstrata. Em falas discutidas pela TechCrunch, ela descreveu a IA como um funil cada vez mais central para a informação e argumentou que o desempenho em “temas de alto risco” continua fraco. Esses temas incluem geopolítica, saúde mental, finanças e contratação, áreas em que respostas incompletas ou distorcidas podem ter consequências reais e em que a resposta correta muitas vezes não é binária. Essa ambiguidade é exatamente o motivo pelo qual Brown acredita que o setor precisa de ferramentas melhores de avaliação, e não de mais confiança na intuição dos modelos.

O modelo da Forum AI traduz consenso de especialistas em testes escaláveis

A abordagem da Forum AI começa recrutando especialistas reconhecidos para desenhar os benchmarks. Brown disse que a empresa identifica especialistas de ponta em um campo, pede que eles arquitetem a estrutura de avaliação e depois treina juízes de IA para pontuar saídas de modelos em escala. Em seu trabalho sobre geopolítica, a Forum AI reuniu uma lista notavelmente influente que inclui Niall Ferguson, Fareed Zakaria, o ex-secretário de Estado Tony Blinken, o ex-presidente da Câmara Kevin McCarthy e Anne Neuberger, ex-funcionária de cibersegurança do governo Obama.

O objetivo operacional não é eliminar completamente o desacordo. Brown disse que a Forum AI pretende fazer com que seus juízes de IA cheguem a cerca de 90% de consenso com especialistas humanos. Segundo ela, a empresa conseguiu atingir esse patamar. A implicação é que a Forum AI vê a avaliação em si como um produto técnico: um sistema capaz de transformar julgamento especializado, normalmente caro e lento, em testes repetíveis sobre muitas saídas de modelos.

Isso importa porque as empresas de modelos mais influentes são fortemente medidas em áreas como programação e matemática, em que o benchmarking automatizado é mais fácil. A crítica de Brown é que os problemas que os usuários encontram no dia a dia geralmente estão em outro lugar. Perguntas sobre política, saúde, dinheiro ou emprego são carregadas de contexto, perspectiva e conflitos de valores. São mais difíceis de avaliar, mas também mais difíceis de descartar como periféricas.

Truth Social vai vender acesso em tempo real por API às contas principais

A Trump Media diz que vai lançar uma API paga do Truth Social em 1º de agosto, oferecendo aos clientes entrega de posts das contas principais em milissegundos e acesso ao arquivo até 2022.

Read article

O alerta vem de alguém que viu plataformas sociais otimizarem para o resultado errado

O argumento de Brown ganha peso extra porque é moldado por sua experiência no Facebook, onde ela foi a primeira e única chefe de notícias dedicada da empresa. Ela disse à TechCrunch que reconheceu o que estava em jogo logo após o lançamento público do ChatGPT, quando ainda estava na Meta. A mudança, em sua visão, foi imediata: as ferramentas de IA estavam prestes a se tornar o caminho dominante pelo qual as pessoas buscam e recebem informação.

Essa perspectiva também explica por que ela está focada em incentivos. Brown disse que o que mais a frustrava era que a precisão não parecia ser uma prioridade central para as empresas de modelos fundacionais. Em sua narrativa, os grandes laboratórios estão fortemente focados em desempenho em programação e matemática, enquanto a precisão informacional é mais difícil de padronizar e, portanto, mais fácil de adiar. Sua resposta é que a dificuldade não torna o problema opcional.

A comparação com as redes sociais é direta. Brown disse que viu em primeira mão o que acontece quando uma plataforma otimiza para o objetivo errado, e descreveu os esforços anteriores da Meta em notícias e checagem de fatos como tendo falhado de maneiras importantes. A lição que ela tira não é simplesmente que moderar é difícil. É que sistemas construídos em torno de engajamento podem se afastar do valor social, mesmo quando o dano se torna óbvio em retrospecto.

O que a Forum AI diz que os modelos atuais estão errando

A crítica de Brown ao comportamento atual dos modelos é específica o bastante para sugerir que a empresa vê padrões consistentes, e não alucinações isoladas. Ela citou o Gemini buscando conteúdo em sites do Partido Comunista Chinês para histórias sem relação com a China e disse que quase todos os principais modelos exibem um viés político à esquerda. Ela também apontou falhas mais sutis: falta de contexto, falta de perspectivas e argumentos que caricaturam visões opostas sem sinalizar claramente a fragilidade da representação.

Essas queixas falam de um problema mais amplo na avaliação de IA. Um modelo pode parecer fluente, rápido e útil enquanto ainda apresenta a informação por meio de uma lente estreita ou instável. Se a saída omite o enquadramento relevante, deixa de refletir a gama de visões sérias ou se apoia em fontes fracas, os usuários podem receber algo que soa autoritário, mas é estruturalmente enganoso. A alegação de Brown é que esses não são defeitos cosméticos. Em temas de alto risco, são falhas de produto.

Ela também argumentou que muitas das correções são relativamente simples. Embora não tenha apresentado um plano técnico completo na discussão citada, o comentário sugere que parte da lacuna de qualidade vem de prioridades, desenho de testes e ciclos de feedback, e não apenas de pesquisa de fronteira ainda sem solução.

Night sky reveals Milky Way above Turkiye’s Yozgat forest

Proposta de subsídio da OMB provoca forte reação de defensores da ciência espacial

Uma proposta de regra federal sobre subsídios gerou uma resposta pública incomumente grande e alertas de defensores da política espacial, que dizem que ela pode remodelar como a ciência nos EUA é financiada e compartilhada.

Read article

Uma nova frente na competição de IA

A Forum AI foi fundada há 17 meses em Nova York, o que a coloca no meio de um mercado em rápida formação para a infraestrutura de governança de IA. As empresas que constroem modelos fundacionais estão sob pressão de reguladores, clientes corporativos e do público para demonstrar que seus sistemas agem de forma responsável em áreas que afetam meios de subsistência, política, saúde e segurança. Brown está posicionando a Forum AI como uma empresa capaz de quantificar se isso acontece.

Isso representa uma mudança notável em onde o valor pode se acumular na pilha de IA. Os maiores laboratórios ainda dominam o treinamento e a distribuição de modelos, mas uma camada paralela está surgindo em torno de auditoria, benchmarking e avaliação independente. Se Brown estiver certa de que os sistemas de IA estão se tornando a rota padrão pela qual muitos usuários consomem informação, então ferramentas que avaliam a qualidade em temas contestados podem se tornar tão importantes estrategicamente quanto os próprios modelos.

Há também uma divisão cultural embutida em seus comentários. Brown disse que uma conversa está acontecendo no Vale do Silício, enquanto uma conversa muito diferente está ocorrendo entre os consumidores. A sugestão é que os construtores ainda podem estar obcecados por métricas de desempenho que não se alinham bem às ansiedades dos usuários comuns, especialmente pais, eleitores, pacientes e trabalhadores. A proposta da Forum AI é que essas ansiedades podem ser convertidas em um padrão mensurável.

A questão maior é quem define o que é “boa” informação de IA

A empresa de Brown não resolve o problema filosófico no centro dos sistemas de informação de IA: quem deve decidir o que conta como equilibrado, preciso ou suficientemente contextualizado em temas nos quais especialistas discordam. O que a Forum AI oferece, em vez disso, é uma resposta processual. Escolher especialistas reconhecidos, construir benchmarks explícitos, treinar sistemas de pontuação com base em seu julgamento e tornar os trade-offs visíveis.

Se esse modelo será amplamente aceito ainda é uma questão em aberto. Mas Brown identificou uma fraqueza cada vez mais difícil de o setor evitar. A IA generativa já não é julgada apenas por quão bem escreve código ou resolve equações. Ela está sendo julgada por como medeia a compreensão em domínios confusos e com consequências. Se essa camada se tornar a nova porta de entrada para o conhecimento público, então a disputa sobre o design de benchmarks pode acabar sendo uma das batalhas mais importantes da IA.

Este artigo é baseado na cobertura da TechCrunch. Leia o artigo original.

Análise do Joolca Hottap Go: Um Chuveiro Portátil de $700 para Aventureiros

O Joolca Hottap Go é um sistema premium de água quente portátil tudo-em-um para camping, vida em van e trabalho ao ar livre. Preço de $554 mais bateria opcional, oferece conveniência e conforto, mas tem um custo elevado.

Read article

Originally published on techcrunch.com

A Forum AI de Campbell Brown aposta que benchmarks criados por especialistas podem corrigir respostas de modelos em temas de alto risco

Campbell Brown quer que a camada de informação da IA seja julgada por especialistas, não por métricas de engajamento

O modelo da Forum AI traduz consenso de especialistas em testes escaláveis

Truth Social vai vender acesso em tempo real por API às contas principais

O alerta vem de alguém que viu plataformas sociais otimizarem para o resultado errado

O que a Forum AI diz que os modelos atuais estão errando

Proposta de subsídio da OMB provoca forte reação de defensores da ciência espacial

Uma nova frente na competição de IA

A questão maior é quem define o que é “boa” informação de IA

Análise do Joolca Hottap Go: Um Chuveiro Portátil de $700 para Aventureiros

Comments (0)

Related Articles

Meta Enfrenta Multa de US$ 12 Bilhões da UE por Feeds Viciantes do Instagram e Facebook

Keep Reading