- Gemini 3 Deep Think se posiciona como el modo de razonamiento avanzado de Google para ciencia, ingeniería y programación compleja.
- El modelo logra resultados de nivel medalla de oro en olimpiadas de matemáticas, física y química, y un Elo 3455 en Codeforces.
- Ya está disponible en la app de Gemini para suscriptores de Google AI Ultra y en acceso anticipado vía Gemini API.
- Primeros casos reales incluyen detección de errores en papers matemáticos y diseño de procesos para nuevos materiales semiconductores.
La última gran apuesta de Google en inteligencia artificial, Gemini 3 Deep Think, apunta directamente al terreno donde los modelos avanzados se ponen realmente a prueba: problemas científicos y de ingeniería con datos incompletos y varias posibles soluciones. No se trata solo de un chatbot más fluido, sino de un modo de razonamiento diseñado para acompañar a equipos de investigación, ingeniería y desarrollo de software en trabajos largos, llenos de incógnitas y matices.
Este enfoque sitúa a Deep Think como una pieza de infraestructura de alto nivel dentro del ecosistema de Gemini. El modelo está entrenado para explorar múltiples rutas lógicas en paralelo, comprobar su propia coherencia interna y descartar caminos erróneos antes de entregar una respuesta final. Esa capacidad de “pararse a pensar” es lo que, sobre el papel, lo diferencia de modelos más orientados a conversación general.
Qué es exactamente Gemini 3 Deep Think y en qué se diferencia
La arquitectura de Deep Think se inspira en lo que en IA se suele llamar “Sistema 2”: en lugar de responder de manera inmediata, el modelo planifica, descompone el problema en pasos intermedios y evalúa distintas hipótesis. Esta planificación le permite afrontar tareas largas, como análisis de artículos científicos extensos, problemas de olimpiadas de matemáticas o ejercicios de programación competitiva de varias fases.
En la práctica, esto se traduce en que el modelo puede razonar sobre un esquema, un conjunto de datos incompleto o un texto técnico denso, y recorrer varias posibles demostraciones, algoritmos o explicaciones antes de quedarse con la que considera más sólida. Google insiste en que el énfasis está en el rigor, no solo en la fluidez verbal.
Otro rasgo relevante es su orientación multimodal. Deep Think está pensado para combinar texto, fórmulas, diagramas y otros formatos técnicos, interpretando diagramas de flujo complejos, esquemas científicos o anotaciones manuales que forman parte del día a día en laboratorios y departamentos de ingeniería.

Resultados en benchmarks: del Humanity’s Last Exam a Codeforces
Para respaldar el posicionamiento de Gemini 3 Deep Think como modelo de referencia en razonamiento, Google se apoya en una batería de benchmarks académicos y competitivos. Según los datos compartidos por la compañía, la versión actualizada logra 48,4% en Humanity’s Last Exam (HLE) sin uso de herramientas externas, un test diseñado para medir la capacidad de enfrentarse a preguntas de nivel universitario avanzado.
En el terreno del razonamiento abstracto, Deep Think alcanza un 84,6% en ARC-AGI-2, puntuación que Google señala como verificada por la ARC Prize Foundation. Este benchmark busca evaluar hasta qué punto un modelo es capaz de generalizar patrones y reglas a partir de tareas poco familiares, algo clave cuando se pretende usar la IA para problemas nuevos y no solo ejercicios ya vistos.
El modelo también destaca en programación competitiva: en la plataforma Codeforces, que puntúa el rendimiento de participantes en retos de codificación con límite de tiempo, Deep Think se sitúa en un Elo 3455. Ese nivel lo coloca en territorio reservado tradicionalmente a programadores humanos de élite, lo que refuerza la idea de que puede servir como apoyo para resolver problemas de programación complejos, optimizar algoritmos o depurar código no trivial.
En el ámbito olímpico, Google afirma que el sistema alcanza resultados de nivel medalla de oro en la Olimpiada Internacional de Matemática 2025, con una tasa de resolución que ronda el 81,5% en sus propias tablas internas, y un rendimiento equiparable en las secciones escritas de la Olimpiada Internacional de Física y la Olimpiada Internacional de Química de 2025. Además, en física teórica de materia condensada, Deep Think consigue un 50,5% en el CMT-Benchmark, centrado en problemas avanzados de modelos físicos.
Conviene tomar estas cifras como indicadores de capacidad relativa, no promesas de rendimiento perfecto en cualquier contexto. Funcionan como el consumo homologado de un coche: sirven para comparar modelos y seguir el progreso, pero el comportamiento real dependerá mucho de cómo se use, del tipo de datos y de la calidad del contexto que reciba.
Primeras aplicaciones reales: de revisar papers a diseñar nuevos materiales
Más allá de los benchmarks, Google ha querido mostrar casos concretos de uso temprano de Gemini 3 Deep Think en entornos reales. Uno de los ejemplos que más ha circulado es el de Lisa Carbone, matemática de la Universidad de Rutgers, que trabaja en estructuras avanzadas relacionadas con física de altas energías.
Carbone utilizó el modelo para revisar un artículo matemático especialmente técnico, en un área donde ni siquiera hay demasiado material de entrenamiento disponible. Según el relato de Google, Deep Think detectó un fallo lógico sutil en la argumentación que había pasado por el proceso habitual de revisión por pares sin ser detectado, lo que apunta a un posible papel de la IA como segundo par de ojos en trabajos matemáticos y teóricos.
Otro caso que se ha destacado procede del Wang Lab de la Universidad de Duke, especializado en crecimiento de cristales y fabricación de semiconductores. El laboratorio usó Deep Think para optimizar procesos de crecimiento de películas delgadas, buscando alcanzar espesores superiores a los 100 micrómetros en materiales clave para futuros dispositivos electrónicos. El modelo propuso una «receta» experimental que, según Google, permitió lograr resultados que los métodos previos tenían dificultades para alcanzar.
Dentro de la propia compañía, se ha citado el trabajo de Anupam Pathak, responsable de I+D en Platforms & Devices de Google, que exploró el uso de Deep Think para acelerar el diseño de componentes físicos para dispositivos de asistencia. En este contexto, la IA actuaría como soporte para iterar entre bocetos, cálculos y prototipos, reduciendo el tiempo entre la idea inicial y la pieza tangible.
Estos ejemplos no convierten al modelo en infalible, pero sí ilustran el tipo de rol que Google le asigna: un asistente técnico capaz de señalar inconsistencias, sugerir caminos alternativos y ayudar en tareas donde la validación lleva tiempo. En laboratorios europeos o españoles con recursos limitados, un sistema de este tipo puede ser un complemento interesante siempre que se combine con verificación humana rigurosa.
De la teoría a la práctica: ciencia, programación y objetos 3D
El abanico de dominios donde Gemini 3 Deep Think pretende aportar valor va más allá de las matemáticas puras. Google subraya que el modelo se ha afinado para interpretar datos desordenados, proponer modelos físicos y generar código que ayude a comprobar hipótesis en simulaciones o entornos experimentales.
En programación, la idea no se limita a resolver ejercicios de competición. Deep Think está pensado para analizar bases de código grandes, sugerir estrategias de diseño y detectar incoherencias lógicas que pueden pasar inadvertidas a simple vista. Para empresas tecnológicas europeas, desde startups de software científico hasta compañías industriales con sistemas heredados complejos, este tipo de asistencia puede traducirse en menos errores y ciclos de desarrollo algo más cortos.
En física y química, la ambición es acompañar a los equipos en tareas como plantear modelos de sistemas reales, traducir ecuaciones a código y explorar variaciones de parámetros antes de pasar al experimento costoso. Aquí el valor no solo reside en encontrar una solución «correcta», sino en ayudar a explorar el espacio de posibilidades con cierta disciplina lógica.
Uno de los ejemplos más llamativos del anuncio de Google tiene que ver con la generación de objetos 3D a partir de bocetos. Deep Think sería capaz de analizar un dibujo, interpretar su estructura, plantear una geometría razonable y generar un archivo listo para impresión 3D. Para laboratorios universitarios, pequeños estudios de diseño o empresas que prototipan piezas mecánicas, poder pasar de una idea dibujada a un modelo imprimible sin tener que modelar todo a mano puede suponer un ahorro de tiempo considerable.
Esta combinación de capacidades —texto, fórmulas, diagramas, código y geometría— apunta a un modelo orientado a “trabajo de taller” científico y de ingeniería, más que a la simple generación de contenido. La clave, no obstante, está en cómo se integra este tipo de sistema en procesos ya establecidos, con criterios claros de validación y supervisión.
Disponibilidad: AI Ultra, API y posibles implicaciones para Europa
En cuanto al acceso, Google ha optado por una estrategia escalonada. Por un lado, Gemini 3 Deep Think está disponible en la app de Gemini para suscriptores de Google AI Ultra, lo que sitúa esta capacidad de razonamiento profundo dentro de la oferta premium de la compañía.
Por otro, se ha puesto en marcha un programa de acceso anticipado a través de la Gemini API, orientado a investigadores, ingenieros y empresas seleccionadas. Esto es relevante porque, cuando un modelo llega a la API, deja de ser únicamente una herramienta de chat y pasa a convertirse en un componente integrable en aplicaciones, pipelines de datos y herramientas internas.
Para universidades, centros de investigación públicos y empresas tecnológicas en España y el resto de Europa, este movimiento abre la puerta a construir servicios propios sobre Deep Think: desde asistentes especializados para grupos de investigación hasta sistemas internos de revisión de código, análisis de datos experimentales o exploración de diseños industriales.
La adopción en el contexto europeo, sin embargo, tendrá que convivir con marcos regulatorios como la Ley de IA de la UE, que introduce obligaciones sobre transparencia, gestión de riesgos y supervisión humana, especialmente cuando se utilizan modelos avanzados en contextos de alto impacto. En este sentido, el reto para instituciones y empresas será tanto técnico como de gobernanza: definir hasta dónde se delega en la IA, cómo se documentan las decisiones y qué mecanismos de control se aplican.
A nivel corporativo, la apuesta por Deep Think llega en un momento en el que Alphabet está intensificando su inversión en infraestructura de IA, con gastos de capital previstos para 2026 muy superiores a los de 2025, orientados a centros de datos, chips y servidores especializados. Desde el punto de vista del mercado, la pregunta es si estos modelos avanzados lograrán traducirse en productos y servicios que compensen ese aumento de inversión.
Un modelo pensado para problemas abiertos… con margen de mejora
Desde el propio anuncio, Google reconoce que el tipo de tareas donde quiere posicionar a Gemini 3 Deep Think —investigación abierta, datos ruidosos, objetivos poco definidos— no encaja bien con mediciones simples. En investigación real, muchas veces ni siquiera está claro qué significa “resolver” un problema, y el trabajo se parece más a descartar hipótesis y proponer experimentos que a contestar un examen tipo test.
Por ello, varios mensajes del lanzamiento insisten en la importancia del rigor, la verificación y las expectativas realistas. Por muy impresionante que sea una puntuación en ARC-AGI-2 o Humanity’s Last Exam, los resultados pueden variar cuando el modelo se enfrenta a datos locales, configuraciones experimentales específicas o estilos de trabajo distintos.
En la práctica, sacar partido a Deep Think exigirá que los equipos que lo adopten en Europa o España desarrollen procedimientos claros de validación: comparar sus propuestas con métodos tradicionales, documentar cuándo acierta y cuándo no, y establecer líneas rojas sobre en qué decisiones no se puede depender exclusivamente de la IA.
Google, por su parte, presenta este modo de razonamiento como una pieza dentro de sistemas “agentivos” más amplios, capaces de iterar, comprobar resultados, consultar herramientas externas y volver a evaluar hipótesis. Esa estrategia va en la línea de reducir errores lógicos y alucinaciones en temas avanzados, algo especialmente sensible cuando hablamos de ciencia, ingeniería o finanzas.
En este contexto, el valor de Deep Think no estará tanto en deslumbrar con una respuesta ingeniosa, sino en ahorrar horas de prueba y error, ayudar a ordenar ideas en proyectos complejos y proponer caminos que quizá un equipo pequeño no habría explorado por falta de tiempo o recursos.
El aterrizaje de Gemini 3 Deep Think como modo de razonamiento avanzado sitúa a Google en una posición destacada en la carrera por crear modelos útiles para ciencia e ingeniería, no solo para conversación generalista. Con puntuaciones competitivas en benchmarks exigentes, primeros casos reales en revisión de papers y diseño de materiales, y una apertura progresiva a través de la app de Gemini y la API, el modelo ofrece a investigadores, ingenieros y empresas europeas una herramienta potente pero que exige ser usada con cuidado, combinando su capacidad de cálculo y exploración con la experiencia humana y con marcos de verificación sólidos.
