Campbell Brown 的 Forum AI 推动为高风险 AI 回答建立专家基准

Campbell Brown 希望 AI 的信息层由专家而非参与度指标来评判

Campbell Brown 多年来一直从事信息如何在线呈现、核实与被信任的工作。如今，她正在主张，下一个信息瓶颈不是社交媒体信息流，而是生成式 AI 系统，而且业界仍然没有足够认真地对待这一问题。她的新公司 Forum AI 建立在一个简单前提之上：如果大模型正成为人们理解世界的主要渠道，那么它们在敏感议题上的回答就需要按照由领域专家设计的标准来测试。

Brown 的担忧并不抽象。TechCrunch 讨论的相关言论显示，她将 AI 描述为越来越核心的信息分发通道，并认为其在“高风险话题”上的表现仍然薄弱。这些话题包括地缘政治、心理健康、金融和招聘等领域，在这些领域里，不完整或失真的回答可能带来现实后果，而且正确答案往往并非非黑即白。正是这种模糊性，让 Brown 认为行业需要更好的评估工具，而不是对模型直觉抱有更多信心。

Forum AI 的模式是把专家共识转化为可规模化测试

Forum AI 的方法首先是招募公认的领域专家来设计基准。Brown 表示，公司会识别某个领域的顶尖专家，请他们架构评估框架，然后训练 AI 评审系统来大规模给模型输出打分。在地缘政治工作上，Forum AI 已经组建了一份引人注目的高知名度名单，其中包括 Niall Ferguson、Fareed Zakaria、前国务卿 Tony Blinken、前众议院议长 Kevin McCarthy，以及曾在奥巴马政府任职的网络安全官员 Anne Neuberger。

运营目标并不是彻底消除分歧。Brown 说，Forum AI 的目标是让其 AI 评审与人类专家达到大约 90% 的共识。按她的说法，公司已经能够达到这一阈值。其含义是，Forum AI 将评估本身视为一种技术产品：一个能把通常昂贵且缓慢的专家判断，转化为可在大量模型输出上重复执行的测试系统。

这很重要，因为最有影响力的模型公司在编码和数学等领域受到密集衡量，而这些领域更容易进行自动化基准测试。Brown 的批评是，用户在日常生活中遇到的问题往往落在别处。关于政治、健康、金钱或就业的问题充满上下文、视角和价值冲突。它们更难评分，但也更难被视为边缘问题而忽略。

Two drones, one yellow, one grey, almost identical otherwise.

FCC推进对涉嫌DJI前台公司的追溯性禁令

美国通信监管机构正准备动用一项新的执法工具，针对其所称通过伪装DJI产品来让其继续留在美国市场的公司。

Read article

这番警告来自一个亲眼见过社交平台优化错误目标的人

Brown 的论点之所以更有分量，是因为它来自她在 Facebook 的经历，她曾担任该公司首任也是唯一的专职新闻负责人。她告诉 TechCrunch，在 Meta 任职期间不久后看到 ChatGPT 公布，她就意识到了其中的风险。在她看来，变化来得很快：AI 工具注定会成为人们寻求和接收信息的主导路径。

这种视角也解释了她为什么关注激励机制。Brown 说，最让她沮丧的是，准确性似乎并不是基础模型公司最优先的目标。按照她的说法，大型实验室极度重视编码和数学表现，而信息准确性更难标准化，因此更容易被推后处理。她的回应是，难做并不意味着这个问题可以被当作可选项。

与社交媒体的类比非常直接。Brown 说，她亲眼看过当一个平台优化错误目标时会发生什么，并将 Meta 早先在新闻和事实核查方面的努力描述为在关键方面失败了。她得出的教训并不只是审核很难，而是围绕参与度构建的系统会逐渐偏离社会价值，即使损害在事后看来已经非常明显。

Forum AI 认为当前模型到底错在哪里

Brown 对当前模型行为的批评具体到足以说明，公司看到的是稳定模式，而非孤立幻觉。她提到 Gemini 会从中国共产党的网站抓取与中国无关故事的内容，并称几乎所有主流模型都表现出左倾政治偏见。她还指出了更细微的失败：缺少上下文、缺少视角，以及在没有清楚表明其呈现薄弱之处的情况下，把对立观点简化成稻草人。

这些抱怨指向 AI 评估中的更大问题。一个模型可以显得流畅、快速且有用，同时仍然以狭窄或不稳定的视角呈现信息。如果输出遗漏了相关框架、未能反映严肃观点的范围，或者依赖薄弱来源，用户可能得到看似权威、实则结构性误导的内容。Brown 的主张是，这些并不是表面瑕疵。对于高风险话题来说，它们就是产品缺陷。

她还认为，许多修复措施相对直接。虽然她没有在被引用的讨论中给出完整的技术蓝图，但这番评论暗示，质量差距中的一部分来自优先级、测试设计和反馈循环，而不只是尚未解决的前沿研究问题。

$A fractured image of a person speaking into a microphone.$

Sony就3万首歌曲扩大战与Udio的诉讼

Sony Music提起新诉讼，指控Udio侵权超过3万首歌曲，加剧了围绕生成式AI音乐最具影响力的版权之争之一。

Read article

AI 竞争的新前线

Forum AI 于 17 个月前在纽约成立，这使它处于一个快速形成的 AI 治理基础设施市场中。构建基础模型的公司正承受来自监管机构、企业客户和公众的压力，需要证明其系统在影响生计、政治、健康和安全的领域中表现负责。Brown 正在把 Forum AI 定位为一家能够量化这一点的公司。

这也意味着 AI 技术栈中的价值可能出现明显转移。最大的实验室仍然主导模型训练和分发，但围绕审计、基准测试和独立评估的平行层正在出现。如果 Brown 的判断正确，即 AI 系统正成为许多用户获取信息的默认路径，那么用于评估争议话题质量的工具，可能会像模型本身一样具有战略重要性。

她的评论中还隐含着一种文化分裂。Brown 说，硅谷内部正在进行一场对话，而消费者群体中则在进行完全不同的一场对话。她的意思是，构建者可能仍然沉迷于那些无法与普通用户，尤其是家长、选民、患者和工人的焦虑清晰对应起来的性能指标。Forum AI 的主张是，这些焦虑可以被转化为可衡量的标准。

更大的问题是谁来定义“好的” AI 信息

Brown 的公司并没有解决 AI 信息系统核心的哲学问题：当专家彼此存在分歧时，谁应该决定什么才算平衡、准确，或拥有足够上下文。Forum AI 提供的是一种程序化答案。选择公认的专家，建立明确基准，用他们的判断训练评分系统，并让权衡透明化。

这种模式能否被广泛接受，仍然是个开放问题。但 Brown 已经指出了一个行业越来越难回避的弱点。生成式 AI 不再只按它写代码或解方程的能力被评价。它正被评价为一种在混乱且影响深远的领域中调节理解的工具。如果这一层成为公众知识的新入口，那么围绕基准设计的争夺，最终可能会成为 AI 领域最重要的战役之一。

本文基于 TechCrunch 的报道。阅读原文。

Originally published on techcrunch.com

Campbell Brown 的 Forum AI 押注由专家构建的基准测试能净化高风险模型回答