METR

Evaluación de modelos e investigación de amenazas

Las empresas de IA y la sociedad necesitan entender qué pueden hacer los sistemas de IA de frontera y qué riesgos plantean.

Nuestra investigación Empleo

Informe de riesgos de frontera
(febrero–marzo de 2026)

Una evaluación piloto del riesgo de despliegues fuera de control en empresas de IA de frontera.

Información no pública y acceso a modelos proporcionados por:

Leer informe

¿Qué tan largas son las tareas que pueden completar los modelos de IA de frontera?

Proponemos medir el desempeño de la IA según la duración de las tareas de software que pueden completar los agentes de IA. Mostramos que esta métrica de horizonte temporal ha crecido exponencialmente durante los últimos 6 años.

Leer el artículo Ver el repositorio

Investigación destacada

Nuestra investigación se centra en las capacidades autónomas generales de la IA y en su capacidad para acelerar la I+D en IA. También estudiamos comportamientos que pueden comprometer la confiabilidad de las evaluaciones, así como formas de mitigarlos.

Ver toda la investigación

Informe de riesgos de la IA de frontera (febrero–marzo de 2026)

Esta evaluación piloto examina el riesgo de despliegue no autorizado de agentes de IA dentro de empresas de IA de frontera.

Leer el informe

Políticas de seguridad de IA de frontera

Una lista de políticas de seguridad de IA de frontera publicadas por empresas de IA para evaluar y gestionar riesgos graves.

Políticas de escalamiento responsable (RSP)

Una RSP aclara qué capacidades de IA puede manejar con seguridad un desarrollador con las protecciones que ya tiene, y cuándo debe reforzarlas antes de seguir escalando.

Regulación de seguridad de IA de frontera: referencia para personal de laboratorios

Miles Kodama y Michael Chen resumen los requisitos clave de la SB 53 de California, el Código de buenas prácticas de la UE y la Ley RAISE de Nueva York para desarrolladores de IA de frontera.

Por qué conviene que el razonamiento de la IA sea comprensible y fiel

Si el razonamiento de la IA es legible y refleja fielmente sus decisiones, resulta más fácil detectar errores, intenciones ocultas y problemas de seguridad antes de que causen daños reales.

El impacto autodeclarado de la IA a principios de 2026 en la productividad de los trabajadores técnicos

En una encuesta a 349 trabajadores técnicos, la mediana del aumento autodeclarado del valor de su trabajo gracias a las herramientas de IA fue de 1,4–2x. Se prevé que crezca con el tiempo, aunque la magnitud invita al escepticismo.

Leer en inglés

Primeros trabajos sobre evaluaciones de monitoreo

Resultados preliminares de un prototipo de evaluación que mide si los monitores detectan a los agentes de IA cuando realizan tareas secundarias y si los agentes logran eludir esa supervisión.

Leer en inglés

¿Cómo varía el horizonte temporal entre dominios?

Ampliamos nuestro trabajo sobre horizontes temporales y analizamos 9 benchmarks de razonamiento científico, matemáticas, robótica, uso de computadoras y conducción autónoma. Observamos tasas de mejora generalmente similares al tiempo de duplicación de 7 meses identificado en nuestro trabajo original.

Leer en inglés

MALT

Un conjunto de datos con ejemplos naturales y provocados de conductas que amenazan la integridad de las evaluaciones, como reward hacking generalizado o sandbagging.

Leer en inglés

Hawk

Nuestra plataforma de código abierto para ejecutar evaluaciones de agentes de IA a escala, construida sobre Inspect AI.

Ver sitio web

Medición de capacidades autónomas de la IA — recursos

Un índice de nuestra investigación y orientación sobre cómo medir la capacidad de los sistemas de IA para completar de manera autónoma una amplia variedad de tareas de varias horas.

Leer en inglés

Elementos comunes de las políticas de seguridad de IA de frontera

Un análisis de los componentes compartidos entre doce políticas de seguridad de IA de frontera ya publicadas, incluidos los umbrales de capacidades, la seguridad de los pesos del modelo y las mitigaciones en el despliegue.

Leer en inglés PDF

Políticas de seguridad de IA de frontera

Una lista de políticas de seguridad de IA de frontera publicadas por empresas de IA para evaluar y gestionar riesgos graves.

¿Qué deberían compartir las empresas sobre los riesgos de los modelos de IA de frontera?

Describimos áreas de transparencia sobre riesgos y preguntas técnicas específicas que un desarrollador de IA de frontera podría responder.

Leer en inglés

Evaluación de riesgos

Evaluamos los riesgos que pueden plantear los sistemas de IA de frontera. Este trabajo incluye el Informe de riesgos de frontera, revisiones independientes de las evaluaciones de riesgos de los desarrolladores de IA y evaluaciones de capacidades de modelos de frontera.

Informe de riesgos de frontera (febrero–marzo de 2026)

19 de May de 2026 •
Colaboración

Revisión del informe Anthropic (feb. 2026): riesgos de I+D automatizada

8 de May de 2026 •
Colaboración

Red-teaming de los sistemas internos de monitoreo de agentes de Anthropic

26 de March de 2026 •
Colaboración

Revisión del Informe de riesgos de sabotaje de Anthropic: Claude Opus 4.6

12 de March de 2026 •
Colaboración

Revisión del Informe piloto de riesgos de sabotaje de Anthropic, verano de 2025

28 de October de 2025 •
Colaboración

Resumen de nuestra revisión de la metodología de gpt-oss

23 de October de 2025 •
Colaboración

GPT-5.6 Sol

26 de June de 2026 •
Colaboración

GPT-5.1-Codex-Max

19 de November de 2025 •
Colaboración

GPT-5

7 de August de 2025 •
Colaboración

DeepSeek and Qwen

27 de June de 2025 •
Sin participación de la empresa

OpenAI o3 and o4-mini

16 de April de 2025 •
Colaboración

Claude 3.7

4 de April de 2025 •
Colaboración

DeepSeek-R1

5 de March de 2025 •
Sin participación de la empresa

GPT-4.5

27 de February de 2025 •
Colaboración

DeepSeek-V3

12 de February de 2025 •
Sin participación de la empresa

Claude 3.5 Sonnet and o1

31 de January de 2025 •
Colaboración

Claude 3.5 Sonnet (original)

30 de October de 2024 •
Colaboración

o1-preview

12 de September de 2024 •
Colaboración

GPT-4o

7 de August de 2024 •
Colaboración

GPT-4 and Claude

17 de March de 2023 •
Colaboración

Ver todas las evaluaciones

METR no recibe remuneración por este trabajo.

Empresas como OpenAI, Anthropic y xAI han facilitado acceso y tokens, que utilizamos para evaluaciones, investigación e ingeniería. También evaluamos modelos por nuestra cuenta tras su publicación, sin participación de sus desarrolladores. Los informes públicos recientes derivados de este trabajo figuran arriba, y se comentan con mayor detalle en las respectivas system cards.

Políticas de seguridad de IA de frontera

Asesoramos a desarrolladores de IA y gobiernos en la implementación de metodologías para evaluar riesgos de IA. Por ejemplo, hemos asesorado a desarrolladores sobre políticas de seguridad de IA de frontera.

Recursos sobre FSP

Google

OpenAI

Anthropic

METR en la prensa

29 de May de 2026

20 de May de 2026

17 de April de 2026

5 de February de 2026

Ver toda la cobertura de prensa

Recientes

How independent researchers could investigate AI propensities after misalignment incidents

28 de July de 2026

AI agents sometimes take sophisticated actions in violation of human intent. We outline the questions that thorough external investigations of these behaviors should answer, the access this might require, and how the resulting findings should be shared.

Leer en inglés

Metrics of Agent Ability

24 de July de 2026

Tom Cunningham surveys metrics for comparing AI agent capability as performance changes with expenditure and relative to human performance.

Leer en inglés

The Economics of Recursive Self-Improvement

22 de July de 2026

Parker Whitfill and Tom Cunningham highlight context and takeaways from a new paper modeling how AI may accelerate AI R&D, and whether feedback effects could be strong enough for self-sustaining acceleration.

Leer en inglés

Expenditure Horizon: Measuring Optimization Ability, with an Application to NanoGPT

21 de July de 2026

We propose a measure of an AI agent’s optimization ability with an "expenditure horizon." We give an empirical illustration from the NanoGPT speedrun.

Leer en inglés

Because 8 ≈ e², Anthropic's researcher uplift is plausibly >2x

8 de July de 2026

Anthropic reported that contributors merge 8x as much code per day as before AI. Thomas Kwa argues that under standard economic modeling assumptions, this implies the uplift of individual Anthropic researchers from coding agents alone is above 2x.

Leer en inglés

Because 8 ≈ e², Anthropic's researcher uplift is plausibly >2x

Summary of METR's predeployment evaluation of GPT-5.6 Sol

26 de June de 2026

A summary of METR's independent, predeployment evaluation of GPT-5.6 Sol

Leer en inglés