Revisiones de evaluaciones de riesgo de desarrolladores de IA
Informes de evaluación
Evaluamos las capacidades autónomas de modelos de IA de frontera, en algunos casos en colaboración con desarrolladores de IA como Anthropic y OpenAI. Lo hacemos tanto para entender las capacidades de los modelos como para probar acuerdos de evaluación por terceros.
GPT-5.1-Codex-Max
19 de November de 2025
•
Colaboración
GPT-5
7 de August de 2025
•
Colaboración
DeepSeek and Qwen
27 de June de 2025
•
Sin participación de la empresa
OpenAI o3 and o4-mini
16 de April de 2025
•
Colaboración
Claude 3.7
4 de April de 2025
•
Colaboración
DeepSeek-R1
5 de March de 2025
•
Sin participación de la empresa
GPT-4.5
27 de February de 2025
•
Colaboración
DeepSeek-V3
12 de February de 2025
•
Sin participación de la empresa
Claude 3.5 Sonnet and o1
31 de January de 2025
•
Colaboración
Claude 3.5 Sonnet (original)
30 de October de 2024
•
Colaboración
o1-preview
12 de September de 2024
•
Colaboración
GPT-4o
7 de August de 2024
•
Colaboración
GPT-4 and Claude
17 de March de 2023
•
Colaboración
METR no recibe remuneración por este trabajo.