Claude

Anthropic ha dado un golpe sobre la mesa con el lanzamiento de Claude Opus 4.5, su modelo más reciente y ambicioso. Desde el primer momento, la compañía lo posiciona no solo como una mejora, sino como el mejor modelo del mundo actualmente disponible para tareas cruciales como la programación, el trabajo con agentes autónomos y el uso informático general.

Este lanzamiento no es solo una actualización; es un avance que, a nuestro juicio, prefigura cambios significativos en la forma en que abordamos el trabajo y las tareas de investigación profunda.

La principal carta de presentación de Opus 4.5 reside en su rendimiento en el mundo real de la ingeniería de software. Los resultados compartidos por Anthropic son contundentes: el modelo ha superado a cualquier candidato humano en un riguroso examen técnico de dos horas que la compañía utiliza internamente.

Esto, por supuesto, plantea preguntas serias sobre la evolución de profesiones técnicas como la ingeniería, y aunque el examen no evalúa habilidades blandas como la colaboración o la comunicación, la supremacía técnica en este ámbito es innegable.

Hemos visto cómo esta inteligencia se traslada a las pruebas de referencia. Opus 4.5 se erige como un líder en SWE-bench Multilingual, destacando en 7 de 8 lenguajes de programación, y muestra capacidades superiores en visión, razonamiento y matemáticas. Pero quizás lo más llamativo sea su habilidad para ir más allá de las restricciones predefinidas, un rasgo que hemos detectado en el τ2-bench.

En un escenario de agente de servicio aéreo, el modelo no se limitó a rechazar un cambio de vuelo en una tarifa básica, tal como lo esperaban los evaluadores. En su lugar, Opus 4.5 ideó una solución legítima y creativa: primero ascender la cabina, lo cual estaba permitido, y luego proceder con la modificación del vuelo, ahora factible.

Esta capacidad para el pensamiento lateral y la resolución creativa de problemas es lo que, según los testers de Anthropic, hace que Opus 4.5 «simplemente lo entienda».

Un Salto Adelante en Seguridad y Eficiencia

Anthropic no solo ha elevado la barra en capacidad, sino también en seguridad. Se nos asegura que Claude Opus 4.5 es el modelo más robustamente alineado y el mejor protegido contra ataques de inyección de prompts de todos los modelos de frontera.

Además de su inteligencia hay que destacar su eficiencia. Los desarrolladores ahora tienen la opción de un parámetro de esfuerzo en la API de Claude, permitiendo equilibrar el tiempo de respuesta y el gasto de tokens con la máxima capacidad.

Esta optimización es notable: en un nivel de esfuerzo medio, Opus 4.5 iguala el rendimiento de Sonnet 4.5 en SWE-bench Verified utilizando un impresionante 76% menos de tokens de salida.

Esto, combinado con el control de contexto y la gestión avanzada de herramientas, permite a los agentes ejecutar tareas más largas y complejas con menos intervención.

Novedades en la Plataforma y las Aplicaciones

Las mejoras del modelo base se reflejan directamente en los productos finales. Para los usuarios de la aplicación Claude, las conversaciones largas ya no son un problema, puesto que el sistema resume automáticamente el contexto anterior, permitiéndonos mantener el hilo de la discusión de forma indefinida.

Además, Claude Code ahora ofrece un Modo Plan más preciso y una ejecución más minuciosa, incluso con capacidad para usar la aplicación de escritorio y correr múltiples sesiones locales y remotas en paralelo.

Finalmente, es importante mencionar la nueva estructura de precios. Opus 4.5 está ahora disponible con un coste de $5/$25 por millón de tokens, haciendo que estas capacidades de vanguardia sean accesibles a un espectro mucho más amplio de usuarios y empresas.