评估报告

我们评估前沿 AI 模型的自主能力。部分项目会与 Anthropic、OpenAI 等 AI 开发者合作;这既帮助我们理解模型能力,也让我们试行第三方评估流程。

METR 不为此项工作收取报酬。

OpenAI、Anthropic、xAI 等公司向 METR 提供过模型 API 调用权限和免费调用额度,用于支持评估研究。除这类合作评估外,METR 有时也会在模型发布后独立开展评估;这类评估不由模型开发者参与。上方列出的是 METR 近期发布的公开报告;更多细节可参见相应模型的系统卡。