- GPT-5.2 llega como evolución directa de GPT-5.1, con mejoras claras en razonamiento, contexto largo, codificación y trabajo profesional.
- La serie se organiza en tres variantes —Instant, Thinking y Pro— orientadas a distintos niveles de complejidad y uso intensivo en empresas.
- Los nuevos modelos superan o igualan a expertos humanos en múltiples benchmarks como GDPval, GPQA Diamond o SWE-Bench Pro, con menor tasa de errores.
- OpenAI acelera lanzamientos para responder a la presión de Gemini 3, refuerza infraestructura con socios como Microsoft y NVIDIA y ajusta precios y disponibilidad para usuarios de pago y desarrolladores.
OpenAI ha puesto en circulación GPT-5.2, la nueva iteración de su modelo de lenguaje de referencia, con el objetivo de reforzar ChatGPT en pleno pulso competitivo con Google y otros actores del sector. Se trata de una actualización rápida sobre GPT-5.1 que no cambia de generación, pero sí pretende marcar una diferencia apreciable en tareas profesionales, científicas y de programación.
La compañía presenta esta serie como su propuesta más capaz hasta la fecha para trabajo avanzado y agentes autónomos, con especial énfasis en el razonamiento complejo, la gestión de contextos muy extensos y la coordinación e integración de aplicaciones de terceros. Aunque el tono de OpenAI es ambicioso, los portavoces insisten en que estos sistemas deben verse como instrumentos de apoyo, no como sustitutos del criterio humano.
Una evolución acelerada dentro de la serie GPT-5

GPT-5.2 se presenta como un paso evolutivo dentro de la serie GPT-5, y como una mejora sobre GPT-5.1 más que como una ruptura radical, pero llega en un contexto poco habitual: apenas han transcurrido cuatro semanas desde la anterior actualización. Ese intervalo tan corto se interpreta como una respuesta directa al lanzamiento de Gemini 3 por parte de Google, que había tomado ventaja en varios tests de razonamiento y programación.
La propia OpenAI reconoce que el ritmo de desarrollo se ha disparado. Tras la buena acogida de Gemini 3 y su impacto en cuota de mercado, Sam Altman declaró internamente un “código rojo”, pidiendo a sus equipos que aparcasen proyectos secundarios para centrarse en mejorar la calidad, la velocidad y la fiabilidad de ChatGPT. GPT-5.2 es la primera materialización visible de ese giro de prioridades.
Desde el punto de vista técnico, la empresa sitúa a GPT-5.2 como la mayor mejora en inteligencia general desde GPT-5, con avances notables en áreas como el análisis de documentos extensos, la codificación en varios lenguajes, la interpretación de imágenes y la ejecución de tareas de varios pasos a través de agentes. No obstante, OpenAI subraya que se trata de una versión dentro de la misma familia, no de un salto a una supuesta “superinteligencia”.
El despliegue se apoya, como en ciclos previos, en infraestructura de Microsoft Azure y GPUs de NVIDIA (entre ellas H100, H200 y GB200-NVL72), un recordatorio de que la capacidad de cómputo sigue siendo un factor determinante. Esta asociación permite a la compañía acelerar entrenamientos y servir modelos más pesados a escala global, algo clave para que la actualización se note en el día a día de empresas y usuarios avanzados en Europa y el resto del mundo.
Las tres variantes: Instant, Thinking y Pro

La nueva serie mantiene la estructura de tres capas habituales, pero con roles más definidos entre Instant, Thinking y Pro. La idea es que cada versión se ajuste mejor a un rango de tareas, desde las consultas cotidianas hasta proyectos de alta complejidad técnica.
GPT-5.2 Instant es la variante más ligera y asequible. Está pensada para redacción rápida, búsqueda de información y conversaciones ágiles, donde la prioridad es la velocidad de respuesta y el coste por consulta. OpenAI indica que esta versión aprovecha las mejoras generales del modelo para ofrecer explicaciones algo más estables y con menos errores que en GPT-5.1, pero sin disparar los recursos necesarios.
GPT-5.2 Thinking se sitúa en el centro de la gama y es la opción orientada a razonamiento estructurado, planificación compleja y proyectos de varios pasos. Aquí es donde se concentran muchas de las novedades: mejor coordinación de herramientas, más solidez en contextos largos y mayor capacidad para seguir cadenas de instrucciones sin perder el hilo. Según las pruebas internas citadas por OpenAI, esta variante mejora de forma apreciable el rendimiento en ciencias, matemáticas y análisis documental.
En la parte alta está GPT-5.2 Pro, el modelo más caro de ejecutar pero también el más exigente en cuanto a calidad. Está diseñado para consultas de máxima complejidad, trabajos científicos avanzados y decisiones técnicas delicadas, donde la prioridad no es tanto el tiempo de respuesta como la consistencia del razonamiento. En la API, esta versión permite ajustar el nivel de razonamiento hasta un modo xhigh, destinado a tareas en las que conviene sacrificar latencia para ganar profundidad.
En ChatGPT, estas variantes se exponen de forma simplificada a los usuarios de pago, mientras que en la API aparecen bajo las denominaciones gpt-5.2, gpt-5.2-chat-latest y gpt-5.2-pro. Esto permite a desarrolladores y empresas europeas elegir el equilibrio que prefieran entre coste, precisión y velocidad en sus propias integraciones.
Resultados en benchmarks: de la oficina al laboratorio
Buena parte del relato de OpenAI se apoya en evaluaciones estandarizadas que comparan GPT-5.2 con expertos humanos y con modelos previos. Aunque estos benchmarks no sustituyen la experiencia en entornos reales, sí ofrecen una referencia de hasta qué punto han mejorado determinadas capacidades.
En GDPval, un conjunto de pruebas que simula trabajos bien definidos en 44 ocupaciones —desde finanzas hasta consultoría o análisis de negocio—, GPT-5.2 Thinking gana o empata con profesionales humanos en el 70,9% de los casos. Además, completa esas tareas con una velocidad once veces superior y a menos del 1% del coste estimado de un especialista, según los datos difundidos por la compañía. Entre las actividades evaluadas se incluyen presentaciones ejecutivas, hojas de cálculo complejas o resúmenes de informes extensos.
En el terreno académico, el salto se aprecia en GPQA Diamond, un benchmark de preguntas de posgrado que cubre disciplinas como física, biología, química o ciencia de materiales. GPT-5.2 Pro alcanza un 93,2% de aciertos, seguido muy de cerca por GPT-5.2 Thinking con un 92,4%. Estos porcentajes sitúan al modelo a la altura de investigadores especializados en buena parte de los ejercicios, aunque la propia OpenAI recalca que el control final debe seguir en manos humanas.
En matemáticas avanzadas, los resultados también avanzan, aunque de forma más contenida. En FrontierMath (Tier 1-3), centrado en problemas de alta dificultad, GPT-5.2 muestra un incremento respecto a GPT-5.1 y empieza a ofrecer sugerencias estructuradas para demostraciones formales. De hecho, la empresa cita un caso en el que GPT-5.2 Pro ayudó a resolver un problema abierto en teoría del aprendizaje estadístico, recogido en un artículo de investigación, si bien siempre con verificación y revisión por parte de los autores.
En programación, GPT-5.2 Thinking alcanza un 55,6% en SWE-Bench Pro, una evaluación que utiliza repositorios de código reales en varios lenguajes y reduce la probabilidad de que el modelo se beneficie de contenidos que ya hubiera visto. Aunque la cifra pueda parecer discreta, supone un salto relevante frente a iteraciones anteriores y, en tareas verificadas, el modelo se aproxima al 80%, lo que permite plantearse la automatización parcial de parches y refactorizaciones bajo supervisión.
Contexto largo, visión y uso de herramientas
Uno de los focos de esta versión es el manejo de contextos extensos, clave para documentos técnicos, contratos o expedientes complejos. GPT-5.2 es capaz de trabajar con entradas de hasta 256.000 tokens, lo que permite integrar información distribuida a lo largo de cientos de páginas manteniendo referencias internas y coherencia entre secciones.
En pruebas específicas como MRCRv2, el modelo logra una precisión casi perfecta al combinar datos dispersos en grandes volúmenes de texto. Esta capacidad resulta especialmente útil en ámbitos europeos como el jurídico, la auditoría, la consultoría de negocio o la regulación, donde es habitual manejar informes extensos y normativas detalladas. Firmas que operan en España y otros países de la UE podrían, en teoría, reducir parte del trabajo manual en revisión documental, siempre que establezcan controles adecuados.
La parte visual también da un paso adelante. En evaluaciones como CharXiv Reasoning, orientada a interpretar gráficos científicos, GPT-5.2 reduce a la mitad los fallos respecto a GPT-5.1. En pruebas tipo ScreenSpot-Pro, que miden la comprensión de interfaces y relaciones espaciales, la precisión se eleva por encima del 86%. Este nivel de rendimiento abre la puerta a usos más serios en análisis de dashboards, diagramas industriales o paneles de control, donde hasta ahora los modelos solían patinar.
Otra pieza clave es la coordinación con herramientas externas, fundamental para construir agentes que hagan algo más que responder por texto. En bancos de pruebas especializados como Tau2-bench para telecomunicaciones, GPT-5.2 roza el 98,7% de aciertos en la secuencia de llamadas a APIs y en la toma de decisiones encadenadas. Algunas empresas tecnológicas señalan que han podido reemplazar arquitecturas con muchos agentes frágiles por un único agente con decenas de herramientas, con menos roturas inesperadas.
De cara al usuario final, esto se traduce en agentes más útiles para automatizar procesos de negocio, soporte técnico o análisis de datos, con especial interés para organizaciones europeas que buscan reducir carga operativa sin recurrir a desarrollo a medida tan complejo. Aun así, los expertos recuerdan que la clave sigue estando en el diseño del flujo de trabajo y en los mecanismos de verificación, no solo en la potencia del modelo.
Aplicaciones en trabajo profesional y ciencia
OpenAI insiste en que GPT-5.2 está concebido como herramienta para reforzar el razonamiento humano en entornos profesionales y científicos, no como sustituto de especialistas. La compañía habla de “trabajo del conocimiento” en sentido amplio: desde tareas de oficina hasta exploración de ideas en matemáticas o física.
En el día a día corporativo, el modelo está optimizado para crear hojas de cálculo, presentaciones y documentos de trabajo más estructurados. Las evaluaciones internas sobre funciones típicas de analistas financieros —por ejemplo, modelos de tres estados o simulaciones de compra apalancada— muestran una mejora notable del modelo Thinking respecto a GPT-5.1, con puntuaciones que pasan aproximadamente del 59% al 68% en la calidad de las salidas.
Empresas tecnológicas que se apoyan en la API, como Notion, Box, Shopify, Harvey o plataformas europeas de productividad, han detectado mejoras en razonamiento de largo recorrido y en el uso estable de herramientas para tareas como generación de informes, análisis de bases de datos o creación de contenidos técnicos. Si ese rendimiento se consolida en entornos reales, parte del trabajo repetitivo de preparación de materiales podría quedar progresivamente automatizado.
En el ámbito científico, OpenAI destaca que GPT-5.2 ya se está utilizando como apoyo en matemáticas, física, biología o ciencia de los materiales. El modelo puede sugerir enfoques, explorar casos particulares o proponer pasos intermedios en demostraciones, siempre con la condición de que los investigadores validen cuidadosamente cada resultado. La firma recalca que los modelos sirven como herramientas exploratorias, mientras que la responsabilidad de la corrección y el contexto sigue siendo humana.
La compañía sostiene incluso que, con GPT-5.2, algunos avances que antes aparecían de manera puntual empiezan a ser más consistentes y fiables. Este tipo de afirmaciones, sin embargo, se miran con cautela en la comunidad académica, que suele exigir replicación independiente y transparencia metodológica antes de dar por buenos los logros asociados a modelos cerrados.
Fiabilidad, seguridad y tasa de errores
Uno de los puntos más sensibles de cualquier modelo de lenguaje es la frecuencia con la que produce respuestas incorrectas o engañosas. OpenAI asegura que GPT-5.2 Thinking reduce alrededor de un 30% relativo la proporción de respuestas con errores frente a GPT-5.1. En términos agregados, la tasa de fallos por respuesta bajaría del 8,8% al entorno del 6,2%.
La empresa atribuye esta mejora a ajustes en los procesos de entrenamiento y a un razonamiento más estable, capaz de detectar incongruencias antes de presentar la respuesta final. Aun así, reconoce que estos porcentajes siguen lejos de lo deseable para ámbitos muy regulados, como la sanidad, las finanzas o el derecho, en los que cualquier decisión debe basarse en criterios externos y comprobables.
En materia de seguridad, OpenAI afirma haber avanzado en la gestión de conversaciones sensibles, especialmente en temas de salud mental y protección de menores. La compañía está desplegando un sistema de predicción de edad que intenta identificar a adolescentes para modular el tipo de contenido al que pueden acceder en ChatGPT. Una vez se compruebe su fiabilidad, se activará un “modo adulto” con menos restricciones para usuarios verificados como mayores de edad, algo que tendrá implicaciones directas en los mercados europeo y español, sujetos a normativas de protección del menor.
La otra cara de estas salvaguardas son las llamadas “sobre-negativas”: situaciones en las que el modelo rechaza responder incluso cuando sería razonable y seguro hacerlo. OpenAI admite que este problema no está resuelto y que sigue ajustando los filtros para reducir bloqueos injustificados sin poner en riesgo la seguridad. Es un equilibrio delicado, especialmente en jurisdicciones con marcos regulatorios exigentes como la Unión Europea.
En paralelo, la empresa avanza en herramientas internas para detectar el uso indebido de los modelos y reforzar mecanismos de trazabilidad, aspectos que pueden resultar cruciales a la hora de cumplir con el futuro reglamento europeo de IA y con posibles normativas adicionales en España.
Despliegue en ChatGPT y API, precios y impacto en empresas
GPT-5.2 se está desplegando de forma escalonada en ChatGPT para los planes de pago, que incluyen Plus, Pro, Go, Business y Enterprise. Eso significa que los usuarios gratuitos seguirán utilizando modelos anteriores, mientras que las nuevas capacidades se concentran en quienes pagan suscripción o usan la API para integrar el modelo en sus productos.
En la interfaz de ChatGPT, OpenAI planea mantener GPT-5.1 activo durante unos tres meses como modelo heredado antes de retirarlo de los planes de pago. El objetivo es evitar sobresaltos en entornos productivos que dependen de flujos ya afinados. Durante este periodo, quienes trabajan con documentación o código podrán comparar el comportamiento de ambas generaciones y ajustar sus procesos.
En la API, GPT-5.2 Thinking aparece como gpt-5.2, mientras que la versión más ligera se expone como gpt-5.2-chat-latest y la variante Pro como gpt-5.2-pro. Los precios de referencia se sitúan en 1,75 dólares por millón de tokens de entrada y 14 dólares por millón de tokens de salida para la versión estándar, con un coste superior para Pro. Además, se mantienen descuentos de hasta el 90% para tokens cacheados, pensados para escenarios donde se reutilizan grandes bloques de contexto.
Aunque estas tarifas son más elevadas que las de GPT-5.1, OpenAI argumenta que la mayor eficiencia y el número de tareas que se pueden automatizar compensan el incremento. En la práctica, esto desplaza el foco a empresas y desarrolladores, que tendrán que decidir si las ganancias en calidad justifican un gasto mayor. En España y en otros países europeos, donde muchas pymes están empezando a experimentar con IA generativa, el coste por token puede ser un factor clave para optar por uno u otro modelo.
La compañía, por ahora, no planea retirar inmediatamente GPT-5.1, GPT-5 ni GPT-4.1 en la API, y asegura que cualquier deprecación se comunicará con tiempo suficiente. Esto da margen a organizaciones que aún dependen de modelos previos para mantener sus pipelines sin cambios bruscos, algo especialmente valorado en sectores como banca, seguros, administraciones públicas o grandes consultoras que operan en la UE.
Competencia, acuerdos estratégicos y contexto europeo
El lanzamiento de GPT-5.2 llega en plena escalada competitiva entre OpenAI, Google, Anthropic y otros actores. Gemini 3 había logrado situarse en lo alto de varias tablas de rendimiento, lo que forzó a OpenAI a acelerar sus planes de actualización y a reforzar su discurso en torno a productividad y fiabilidad.
Dentro de este juego de fuerzas, OpenAI combina su estrategia de producto con acuerdos de alto perfil en el sector del entretenimiento y los contenidos. Entre ellos destaca la inversión de mil millones de dólares por parte de Disney, acompañada de una licencia de centenares de personajes para su uso en herramientas de generación de imágenes y vídeo, como ChatGPT Images y Sora. Aunque estos movimientos no se limitan a GPT-5.2, ilustran la ambición de la empresa por posicionarse también en ámbitos creativos, con implicaciones sobre derechos de autor y uso responsable de propiedad intelectual.
En paralelo, la compañía mantiene conversaciones y alianzas con fabricantes de hardware como AMD, Intel y NVIDIA para ampliar su capacidad de cómputo, imprescindible si quiere seguir entrenando modelos cada vez más grandes y responder a la demanda global. Esta dimensión industrial tiene un impacto indirecto en Europa, donde crece el debate sobre la dependencia tecnológica y la necesidad de centros de datos y capacidades propias frente a gigantes estadounidenses.
Desde la óptica regulatoria, la llegada de GPT-5.2 se produce mientras la Unión Europea avanza en la implementación de la Ley de IA, que impondrá obligaciones adicionales a los llamados modelos de frontera. Esto incluye requisitos de transparencia, gestión de riesgos y documentación técnica que podrían condicionar la forma en que OpenAI ofrece sus servicios en el mercado europeo, incluida España.
Para empresas y administraciones públicas de la región, el escenario que se abre es dual: por un lado, disponen de herramientas más potentes para automatizar y mejorar procesos; por otro, deben encajar su uso en marcos normativos cada vez más estrictos, que exigen controles de seguridad, gobernanza de datos y supervisión humana efectiva.
Con GPT-5.2, OpenAI intenta reforzar la percepción de que sigue marcando el paso en inteligencia artificial general al tiempo que responde a la ofensiva de competidores como Google. Las mejoras en razonamiento, contexto largo, codificación y agentes apuntan a un modelo más útil para trabajo profesional y científico, pero también evidencian que la frontera se desplaza rápido y que la adopción responsable —especialmente en España y Europa, con su foco regulatorio— dependerá tanto de cómo se integren estos sistemas en la práctica como de la capacidad de organizaciones y usuarios para mantener el control sobre su uso.
