saltar al contenido

Llega Claude Opus 4.5: Destruyendo las pruebas de codificación y anunciando la era "Superman" de la programación de IA

El ritmo de lanzamientos de grandes modelos ha sido implacable últimamente. Justo cuando Gemini 3 Pro estaba en el punto de mira, Anthropic lanzó oficialmente Claude Opus 4.5, subiendo una vez más el listón con un fuerte enfoque en la programación y las tareas a nivel de sistema.

Anthropic afirma que Opus 4.5 es más inteligente y eficiente en general. Mantiene su rendimiento de primer nivel en tareas a nivel de sistema, como programación, creación de agentes y control informático, a la vez que muestra mejoras significativas en tareas cotidianas como investigación, presentaciones y análisis de hojas de cálculo. A partir de hoy, Opus 4.5 está ampliamente disponible a través de la aplicación Claude, la API y las principales plataformas en la nube para que los desarrolladores lo utilicen mediante la llamada a la API `claude-opus-4-5-20251101`.

Opus 4.5 ocupa un lugar central en una temporada de debuts de IA

Según los anuncios oficiales y los comentarios de los evaluadores, Claude Opus 4.5 comprende notablemente mejor las solicitudes ambiguas y es más estable en la identificación autónoma de errores complejos. Se ha convertido en el primer modelo en obtener una puntuación superior al 80 % en la prueba de ingeniería de software del mundo real, SWE-Bench Verified.

La calidad del código del modelo ha experimentado una mejora integral. En la prueba multilingüe de SWE-bench, que abarca ocho lenguajes de programación, Opus 4.5 obtuvo la máxima puntuación en siete de ellos. En un ejemplo convincente, el equipo de Anthropic sometió a Opus 4.5 a una prueba de alta dificultad para la contratación de ingenieros de rendimiento. En el plazo de dos horas, el modelo superó a todos los candidatos humanos. Más allá de la ingeniería de software, Claude Opus 4.5 demuestra mejoras generalizadas en visión, razonamiento y matemáticas. Las capacidades del modelo incluso están empezando a superar los estándares de evaluación existentes. En una prueba de referencia de Agentic, el modelo ideó una ingeniosa solución alternativa a un problema que cumplía con las reglas, pero que estaba fuera de las respuestas esperadas de la prueba, demostrando su capacidad creativa para la resolución de problemas.

Claude Everywhere: Integrado en su escritorio, navegador y Excel

Junto con Opus 4.5, se ha actualizado todo el ecosistema de Claude. Claude Code recibió dos actualizaciones importantes: el "Modo Plan" para planes de ejecución más precisos y una nueva aplicación de escritorio para ejecutar múltiples sesiones de agente simultáneamente. Para los usuarios de la aplicación, ya está disponible la tan solicitada función de "conversaciones infinitas", que permite que los diálogos continúen indefinidamente mediante el resumen automático del contexto inicial. Además, la extensión de Claude para Chrome está disponible para todos los usuarios de Max, y la versión beta de Claude para Excel se ha ampliado a los usuarios de Max, Team y Enterprise.

Más inteligente y más económico: una importante actualización subyacente para Opus 4.5

A medida que los modelos se vuelven más inteligentes, resuelven problemas con mayor eficiencia. Claude Opus 4.5 utiliza significativamente menos tokens que sus predecesores para lograr resultados similares o mejores. Un nuevo parámetro de "esfuerzo" en la API permite a los desarrolladores elegir entre priorizar la velocidad y el coste o maximizar la capacidad del modelo. Con un nivel de esfuerzo medio, Opus 4.5 iguala el mejor rendimiento de Sonnet 4.5 en SWE-bench Verified, pero con un 76 % menos de tokens de salida. Anthropic también introdujo tres nuevas funciones para resolver el reto de gestionar numerosas herramientas en flujos de trabajo de agentes: "Herramienta de búsqueda de herramientas", "Llamada programática a herramientas" y "Ejemplos de uso de herramientas", que han mejorado significativamente la precisión en pruebas complejas con múltiples herramientas al reducir el uso de tokens y mejorar la selección de herramientas.

Esta versión destaca una tendencia emergente: los distintos modelos de IA están desarrollando personalidades distintas. La línea Opus destaca en programación, razonamiento estructurado y operaciones de sistemas, mientras que modelos como Sonnet pueden ser más rentables para la escritura creativa. El lanzamiento de Opus 4.5 confirma esta especialización. En el futuro, la selección de un modelo de IA se centrará menos en las puntuaciones en las clasificaciones y más en encontrar un compañero cuyo estilo de trabajo se ajuste a tus necesidades.

_{area}

_{region}
_{language}