Evaluación de riesgos

Informe de riesgos de frontera
(febrero–marzo de 2026)

Una evaluación piloto del riesgo de despliegues fuera de control en empresas de IA de frontera.

Información no pública y acceso a modelos proporcionados por:

Leer informe

Revisiones de evaluaciones de riesgo de desarrolladores de IA

Revisión del informe Anthropic (feb. 2026): riesgos de I+D automatizada

8 de May de 2026

Revisión externa de METR de la sección sobre riesgos de I+D automatizada del informe de riesgos de Anthropic de febrero de 2026.

Red-teaming de los sistemas internos de monitoreo de agentes de Anthropic

26 de March de 2026

Un miembro del equipo de METR pasó tres semanas haciendo red-teaming de una parte de los sistemas internos de monitoreo y seguridad de agentes de Anthropic, y encontró varias vulnerabilidades nuevas.

Revisión del Informe de riesgos de sabotaje de Anthropic: Claude Opus 4.6

12 de March de 2026

Revisión externa de METR del Informe de riesgos de sabotaje de Anthropic para Claude Opus 4.6.

Revisión del Informe piloto de riesgos de sabotaje de Anthropic, verano de 2025

28 de October de 2025

Revisión externa de METR del Informe piloto de riesgos de sabotaje de Anthropic del verano de 2025.

Resumen de nuestra revisión de la metodología de gpt-oss

23 de October de 2025

Detalles sobre recomendaciones externas de METR para los experimentos de preparación de gpt-oss y el seguimiento de OpenAI.

Informes de evaluación

Evaluamos las capacidades autónomas de modelos de IA de frontera, en algunos casos en colaboración con desarrolladores de IA como Anthropic y OpenAI. Lo hacemos tanto para entender las capacidades de los modelos como para probar acuerdos de evaluación por terceros.

GPT-5.6 Sol

26 de June de 2026 •
Colaboración

GPT-5.1-Codex-Max

19 de November de 2025 •
Colaboración

GPT-5

7 de August de 2025 •
Colaboración

DeepSeek and Qwen

27 de June de 2025 •
Sin participación de la empresa

OpenAI o3 and o4-mini

16 de April de 2025 •
Colaboración

Claude 3.7

4 de April de 2025 •
Colaboración

DeepSeek-R1

5 de March de 2025 •
Sin participación de la empresa

GPT-4.5

27 de February de 2025 •
Colaboración

DeepSeek-V3

12 de February de 2025 •
Sin participación de la empresa

Claude 3.5 Sonnet and o1

31 de January de 2025 •
Colaboración

Claude 3.5 Sonnet (original)

30 de October de 2024 •
Colaboración

o1-preview

12 de September de 2024 •
Colaboración

GPT-4o

7 de August de 2024 •
Colaboración

GPT-4 and Claude

17 de March de 2023 •
Colaboración

METR no recibe remuneración por este trabajo.

Empresas como OpenAI, Anthropic y xAI han facilitado acceso y tokens, que utilizamos para evaluaciones, investigación e ingeniería. También evaluamos modelos por nuestra cuenta tras su publicación, sin participación de sus desarrolladores. Los informes públicos recientes derivados de este trabajo figuran arriba, y se comentan con mayor detalle en las respectivas system cards.