Informes de evaluación

Evaluamos las capacidades autónomas de modelos de IA de frontera, en algunos casos en colaboración con desarrolladores de IA como Anthropic y OpenAI. Lo hacemos tanto para entender las capacidades de los modelos como para probar acuerdos de evaluación por terceros.

METR no recibe remuneración por este trabajo.

Empresas como OpenAI, Anthropic y xAI han facilitado acceso a sus modelos y créditos de cómputo para apoyar la investigación en evaluación. También evaluamos modelos por nuestra cuenta tras su publicación, sin participación de sus desarrolladores. Los informes públicos recientes derivados de este trabajo figuran arriba, y se comentan con mayor detalle en las respectivas system cards.