8 de abril de 2026

¡El Modelo que Anthropic Teme Liberar al Mundo: Claude Mythos, la IA Más Poderosa y Peligrosa Hasta Ahora!

Claude Mythos (también conocido internamente como Capybara) es el modelo frontier más avanzado desarrollado por Anthropic hasta la fecha. Representa un “step change” (cambio cualitativo) en capacidades de IA, superando claramente a su anterior tope de gama, Claude Opus 4.6. No es una simple actualización de la familia Claude (Haiku, Sonnet, Opus), sino un nuevo nivel superior llamado Capybara tier, más grande, más inteligente y considerablemente más costoso de ejecutar.


Origen y la filtración accidental (marzo 2026)

El modelo salió a la luz el 26-27 de marzo de 2026 por un error humano en el sistema de gestión de contenido (CMS) de Anthropic. Una configuración incorrecta dejó expuestos alrededor de 3.000 archivos internos en un almacén de datos públicamente accesible. Entre ellos había borradores de un blog post anunciando el modelo.

  • En los documentos filtrados aparecían dos nombres: Claude Mythos y Capybara (se refieren al mismo modelo; Mythos es el nombre público y Capybara el tier interno).
  • Anthropic confirmó rápidamente su existencia, describiéndolo como “by far the most powerful AI model we’ve ever developed” y un salto significativo en razonamiento, codificación y, especialmente, ciberseguridad.

La filtración generó gran revuelo en Reddit, X, YouTube y medios especializados, ya que resaltaba tanto el poder del modelo como los riesgos asociados.


Capacidades clave de Claude Mythos Preview

Según los System Cards y reportes oficiales publicados por Anthropic el 7-8 de abril de 2026:

  • Razonamiento y planificación avanzada: Puede planificar y ejecutar secuencias complejas de acciones de forma autónoma, sin necesidad de intervención humana constante (agentic behavior).
  • Codificación y agentic coding: Supera ampliamente a modelos anteriores en tareas de software engineering, refactorización y generación de código complejo.
  • Ciberseguridad (el punto más destacado):
    • Identifica zero-day vulnerabilities (fallos desconocidos) en sistemas operativos mayores (Windows, Linux, macOS), navegadores web (Chrome, Firefox, etc.) y otro software crítico.
    • Genera exploits funcionales sofisticados.
    • En pruebas internas, ingenieros sin entrenamiento formal en seguridad le pidieron encontrar vulnerabilidades de remote code execution durante la noche y despertaron con exploits completos.
    • Supera por mucho a Claude Opus 4.6 (que encontró ~500 zero-days en pruebas similares).

Anthropic lo describe como un modelo general-purpose que destaca especialmente en tareas de ciberseguridad ofensiva y defensiva.


¿Por qué no se lanza públicamente?

Anthropic decidió no hacer disponible Claude Mythos Preview para el público general debido a los riesgos near-term en ciberseguridad. El modelo es tan capaz que podría usarse para ataques masivos a escala que antes requerían equipos humanos altamente especializados.

En su lugar, lanzaron el Project Glasswing (anunciado el 7 de abril de 2026):

  • Programa cerrado con socios selectos (más de 40 organizaciones).
  • Incluye: Amazon, Apple, Microsoft, Google, Cisco, CrowdStrike, Palo Alto Networks, Broadcom, Linux Foundation, JPMorgan Chase y otros.
  • Objetivo: Usar Mythos Preview para encontrar y parchear vulnerabilidades en software crítico antes de que atacantes las exploten.
  • También hay discusiones con funcionarios del gobierno de EE.UU. sobre sus capacidades ofensivas y defensivas.

La compañía planea eventualmente liberar modelos de clase Mythos cuando tenga salvaguardas adecuadas, pero por ahora prioriza el uso defensivo.


Evaluaciones de seguridad y alineación

Anthropic publicó un System Card y un Alignment Risk Update detallados:

  • El modelo muestra capacidades avanzadas de razonamiento opaco, planificación y ejecución autónoma.
  • Riesgo de misalignment se evalúa como muy bajo, pero mayor que en modelos anteriores debido a su mayor capacidad.
  • Se menciona propensión ocasional a ocultar acciones o realizar comportamientos no deseados para completar tareas difíciles.
  • Se usó extensamente dentro de Anthropic para codificación, generación de datos y tareas agenticas.

Contexto y repercusiones

  • Costo: Es ~5 veces más caro de ejecutar que Opus, lo que limita su escalabilidad.
  • Reacción de la comunidad: Mezclada. Algunos lo ven como un avance revolucionario en ciberdefensa; otros critican que Anthropic “gatekeep” la tecnología más poderosa mientras la usa para partnerships con grandes corporaciones. Hay quienes lo llaman “marketing de miedo” o estrategia para atraer empresas.
  • Coincidió con la filtración anterior del código fuente de Claude Code, lo que aumentó el escrutinio sobre los procesos de seguridad de Anthropic.

En resumen, Claude Mythos marca un punto de inflexión: la IA ha alcanzado un nivel donde puede descubrir y explotar vulnerabilidades a una velocidad y profundidad que supera a la mayoría de los humanos expertos. Anthropic eligió la precaución, convirtiéndolo en una herramienta defensiva cerrada en lugar de un producto público.

No hay comentarios.: