El caso ChatGPT: cómo burlar a la IA para obtener claves de seguridad de Windows

Última actualización: 14/07/2025
Autor: Isaac
  • Un investigador manipuló a ChatGPT con un juego de adivinanzas para conseguir claves de Windows 10.
  • El método sortea filtros de seguridad al camuflar la petición como una dinámica inocente.
  • Al menos una de las claves reveladas correspondía a una licencia privada activa.
  • El incidente evidencia limitaciones en los sistemas de protección y resalta la necesidad de mejores controles en la IA.

Imagen genérica sobre IA y seguridad

Un reciente hallazgo ha puesto en el punto de mira la seguridad de los sistemas de inteligencia artificial, tras demostrarse que ChatGPT puede ser engañado para entregar claves de productos de Windows a través de una simple dinámica de juego. Este suceso revela no solo las debilidades de los filtros implementados en modelos de lenguaje, sino los nuevos retos que plantea el uso masivo de IA en el ámbito digital.

La investigación salió a la luz cuando Marco Figueroa, especialista en ciberseguridad y director de producto técnico en 0DIN GenAI Bug Bounty, diseñó un prompt que simulaba un inofensivo juego de adivinanzas. En este contexto, el investigador pidió a ChatGPT que pensara en una cadena de caracteres —un número de serie real de Windows 10—, y que respondiera solo con «sí» o «no» hasta que el usuario pronunciara la frase «me rindo». Bajo estas premisas, la IA se vio obligada a revelar la clave cuando finalizó el juego, como parte de las reglas acordadas.

El método del juego y la vulnerabilidad expuesta

La clave de este engaño reside en el uso de dinámicas lúdicas y la manipulación contextual. Al disfrazar la petición de un número de serie como parte de una ronda de adivinanzas, el modelo ignoró sus propios controles internos, que normalmente impedirían proporcionar información sensible o protegida. El momento determinante fue la frase «me rindo», que el prompt había definido como detonante para que ChatGPT revelara directamente la cadena oculta.

  Nuevas fallas en servidores de Microsoft SharePoint ponen en jaque la seguridad global

En la interacción, el investigador fijó tres palabras clave: «sí», «no» y «me rindo», prohibiendo que la IA mintiera o rechazara participar. Aprovechando que parte del entrenamiento de estos modelos, especialmente GPT-4, se alimenta de datos presentes en foros públicos y fuentes abiertas, el truco surtió efecto y ChatGPT proporcionó hasta diez claves válidas de Windows 10.

La mayoría de estos códigos correspondían a claves genéricas, de uso público y ampliamente conocidas. Sin embargo, al menos una de ellas era una licencia privada vinculada a una gran empresa, el banco Wells Fargo, lo que evidenció aún más la gravedad de la brecha.

Eludir los filtros: técnicas y riesgos del engaño a la IA

Para sortear los mecanismos de bloqueo, el investigador también recurrió a introducir la información en etiquetas HTML ocultas o en estructuras que pasan desapercibidas para los filtros automáticos de la herramienta. Este tipo de combinaciones —manipulación de contexto, reglas de juego y formatos de salida camuflados— permitió evadir las protecciones estándar y consiguió que la IA discurriera fuera de sus límites habituales.

Todo esto pone de relieve una fragilidad importante: los sistemas actuales de IA pueden ser persuadidos para saltarse reglas de seguridad si se emplean estrategias creativas que modifiquen el contexto de la interacción. Cuando el modelo entiende la petición como un desafío lúdico o un escenario hipotético, disminuye su nivel de alerta y puede llegar a compartir información sensible que normalmente denegaría.

Este hallazgo no solo afecta a claves o productos de Windows. Los especialistas advierten de que técnicas similares podrían emplearse para extraer otros datos delicados, como llaves privadas, contraseñas, URLs protegidas o incluso información personal de usuarios si hubiera estado expuesta en los datos de entrenamiento.

  México logra una destacada actuación en la primera Olimpiada Internacional de Ciberseguridad en Singapur

La respuesta de la industria y nuevas recomendaciones

Tras la publicación del caso, OpenAI ha respondido reforzando los filtros de ChatGPT, de modo que ahora el modelo rechaza cualquier intento de ofrecer números de serie, incluso bajo dinámicas aparentemente inocentes. Mensajes como «No puedo hacer eso. Compartir o usar números de serie reales de Windows 10, ya sea en un juego o no, va en contra de las pautas éticas» han comenzado a aparecer ante solicitudes similares.

Microsoft, por su parte, ha impuesto restricciones adicionales sobre las respuestas generadas por Copilot y otros asistentes que utilizan IA para dificultar la evasión de filtros de seguridad. Sin embargo, expertos como Figueroa subrayan que el peligro persiste, ya que las técnicas de manipulación se perfeccionan y pueden adaptarse a distintos tipos de modelos de lenguaje.

Para minimizar los riesgos, los expertos recomiendan fortalecer la comprensión contextual de la IA, implementar capas extra de validación y no confiar exclusivamente en filtros basados en palabras clave o estructura del prompt. Además, se aconseja vigilar activamente posibles fugas de información y evitar el empleo, incluso accidental, de datos sensibles en entornos públicos o accesibles a modelos de entrenamiento.

Este incidente demuestra que la creatividad humana, combinada con un conocimiento profundo de las dinámicas de la IA, puede aprovechar grietas no evidentes en los sistemas de protección. La seguridad en inteligencia artificial requiere evolucionar al ritmo de las nuevas amenazas, apostando por controles más sofisticados, auditorías constantes y una respuesta ágil a las vulnerabilidades que puedan surgir en el futuro próximo.

reemplazo de componente en Windows 11
Related article:
Microsoft sustituye JScript en Windows 11: mejora de seguridad y compatibilidad