Gemini podrá controlar tu móvil Android sin que toques la pantalla

Última actualización: 08/02/2026
Autor: Isaac
  • Gemini estrenará una función de automatización de pantalla capaz de manejar apps por ti en Android.
  • El sistema podrá leer lo que hay en pantalla, pulsar botones y rellenar formularios para tareas como pedir comida o reservar viajes.
  • Google insiste en que la supervisión humana sigue siendo imprescindible y que el usuario es responsable de lo que haga la IA.
  • La función, basada en permisos de Android 16 QPR3, plantea dudas sobre privacidad al usar capturas de pantalla para mejorar el servicio.

Gemini controla tu móvil sin tocar la pantalla

Google está dando un paso serio hacia la automatización avanzada de tareas en Android con Gemini, su sistema de inteligencia artificial más potente. La compañía quiere que este agente sea capaz de moverse por tu móvil y ejecutar acciones complejas sin que tengas que ir tocando la pantalla todo el rato.

En las últimas versiones beta de la app de Google para Android se han encontrado referencias a una función llamada «automatización de pantalla», que encaja con lo que la empresa mostró recientemente bajo el paraguas de Project Astra. La idea es que tu teléfono pueda completar encargos del día a día casi como si lo manejara una persona, pero siempre bajo tu vigilancia.

Qué es la automatización de pantalla de Gemini

Según el código descubierto en la beta de la app de Google, esta nueva herramienta permitiría a Gemini ejecutar acciones dentro de ciertas aplicaciones sin que el usuario tenga que interactuar físicamente con la pantalla. Hablamos de cosas como pedir comida a domicilio, reservar un viaje o gestionar un pedido en curso.

Esta capacidad se apoya en una función interna denominada «screen automation» y en un desarrollo con nombre en clave «bonobo», localizado en la versión beta 17.4 de la aplicación. Todo apunta a que Android 16 QPR3 introduce permisos específicos que dan a Gemini vía libre para interactuar con otros servicios instalados en el móvil.

La automatización no se limitaría a apps propias de Google. El objetivo es que el asistente pueda funcionar dentro de determinadas aplicaciones de terceros, siempre que cumplan las condiciones técnicas y de permisos necesarias. De momento, la función está en fase de pruebas en Google Labs, sin despliegue generalizado.

Por ahora, la compañía no ha comunicado un calendario oficial, pero el hecho de que el código ya aparezca en versiones beta indica que la integración está en una etapa bastante avanzada, al menos a nivel interno.

Cómo será capaz Gemini de usar tu móvil por ti

La clave de esta novedad es que Gemini no se limita a responder mensajes o consultas, sino que «ve» y analiza el contenido de la pantalla. El sistema aplica una capa de reconocimiento visual que identifica textos, botones clicables, formularios y otros elementos de la interfaz de las aplicaciones.

  Windows 95 en PlayStation 2: el ambicioso reto de ejecutar el clásico sistema operativo en una consola de Sony

Cuando el usuario le pide algo a Gemini, la IA interpreta la orden, aunque sea una instrucción imprecisa o coloquial, y la transforma en una secuencia de pasos concretos dentro de la app correspondiente. Es decir, traduce lo que dices en una especie de guion de toques, deslizamientos y selecciones.

Imagina que le dices al móvil: «Quiero pedir una pizza hawaiana para esta noche». En lugar de limitarse a abrir una aplicación, Gemini podría entrar en tu app de comida favorita, buscar pizzas, seleccionar la variedad hawaiana, revisar la dirección de entrega y dejar únicamente el último toque de confirmación en tus manos.

Lo mismo podría suceder con un viaje: al pedir «reserva un taxi para estar en el centro en media hora», el asistente sería capaz de abrir la app de transporte, ajustar origen y destino, elegir hora aproximada e incluso comprobar métodos de pago, de nuevo a la espera de tu aprobación final.

Project Astra ya avanzó esta línea mostrando que Gemini puede desplazarse por pantallas, pulsar botones y elegir opciones prácticamente como lo haría un usuario humano, combinando comprensión del contexto, visión artificial y planificación de acciones.

Ejemplos prácticos en el día a día

En el uso cotidiano, Google planea que esta automatización arranque con escenarios relativamente acotados. De entrada, las primeras pruebas apuntan a apps de comida a domicilio y transporte, donde los flujos de uso están bastante definidos y son repetitivos.

La idea es que Android se convierta en un sistema operativo donde las tareas rutinarias se delegan en un agente inteligente. Cosas como repetir siempre el mismo pedido semanal, reservar un trayecto frecuente o confirmar un encargo pendiente podrían quedar prácticamente en manos de Gemini.

Pero el potencial va más allá. El sistema podría encargarse de seguir el estado de tus compras online, consultar fechas de entrega, o ayudarte a reprogramar un envío si no vas a estar en casa. Todo ello moviéndose entre correos, apps de comercio electrónico y servicios de mensajería.

Otro escenario posible sería el de las finanzas personales: si recibes un correo con una factura pendiente, Gemini podría detectar los datos relevantes del mensaje, abrir tu app bancaria, rellenar el importe y el concepto de la transferencia, y dejar la operación lista para que la valides con tu huella dactilar.

  China impulsa la creación de una organización global para regular la Inteligencia Artificial

En el ecosistema de Google, esta automatización podría encajar con Calendar, Gmail o Maps. Por ejemplo, a partir de un correo de reserva, el sistema sería capaz de añadir automáticamente un evento al calendario o sugerirte cuándo salir de casa según el tráfico y tu ubicación.

La supervisión del usuario, condición imprescindible

Google insiste claramente en que, pese a este salto de capacidades, el control último debe seguir en manos de la persona. En los avisos internos detectados en el código se subraya que Gemini puede equivocarse y que el usuario es responsable de lo que se haga en su nombre.

La automatización funcionará como un agente al que le delegas tareas, pero al que tendrás que vigilar de cerca. De hecho, el sistema permitirá detener en cualquier momento la secuencia de acciones con un simple toque en la pantalla, recuperando el manejo manual del dispositivo.

Google recuerda que, aunque la IA «haga el trabajo sucio», no se trata de un sistema infalible. Puede confundir un botón, escoger una opción incorrecta o interpretar mal una instrucción demasiado ambigua, así que la recomendación es revisar siempre los pasos clave antes de confirmar.

En la práctica, esto significa que el asistente llevará el proceso hasta casi el final, pero la validación de decisiones sensibles debería seguir siendo manual. Algo especialmente relevante en ámbitos como pagos, reservas de alto importe o gestiones que no admiten errores.

Además, Google advierte de que esta función no está pensada para emergencias ni para trámites que incluyan información críticamente sensible, precisamente por el riesgo que supondría un fallo o un malentendido del sistema.

Privacidad: capturas de pantalla y datos sensibles

Uno de los puntos más delicados de esta nueva etapa es cómo gestionará Google la información que Gemini ve en tu pantalla. Para poder aprender y mejorar, el sistema podría tomar capturas durante la interacción con las apps.

La compañía señala que esas capturas de pantalla podrían ser revisadas por personal humano con el objetivo de optimizar el servicio, siempre y cuando tengas activada la opción de «Actividad Guardada» en tu cuenta. De lo contrario, el tratamiento de esos datos sería más limitado. Además, existen alertas por estafa relacionadas con archivos que permiten tomar control de móviles, lo que subraya los riesgos.

En cualquier caso, Google recomienda no introducir contraseñas, datos de tarjetas bancarias ni información de pago en las conversaciones con Gemini. También sugiere evitar el uso de esta automatización para procesos con datos extremadamente privados o delicados.

  DLSS 5: así quiere NVIDIA acercar los videojuegos al cine fotorrealista

La propia naturaleza del sistema, que se mueve por tus aplicaciones y ve lo mismo que tú, obliga a plantear con calma hasta dónde estás dispuesto a ceder información a cambio de comodidad. Aunque haya políticas de privacidad y controles de actividad, la exposición potencial es mayor.

Este equilibrio entre comodidad y protección de datos será clave en Europa y España, donde la regulación en materia de privacidad es especialmente estricta y las autoridades suelen mirar con lupa el uso de información personal con fines de mejora de servicios.

Gemini como agente operativo dentro del ecosistema Android

Con esta función, Google pretende que Gemini deje de ser visto como un simple chatbot o asistente de voz y pase a convertirse en un agente capaz de operar dentro del sistema.

La visión de la compañía es un Android en el que la fricción entre lo que quieres hacer y su ejecución se reduzca al mínimo. En vez de abrir varias apps y navegar por menús, el usuario daría una instrucción general y dejaría a la IA la tarea de moverse por el dispositivo.

Esta dirección encaja con la tendencia a transformar Android en un sistema operativo claramente centrado en la inteligencia artificial, donde muchas de las interacciones tradicionales (toques, formularios, búsquedas internas) queden ocultas tras una capa conversacional.

En el medio plazo, si la automatización de pantalla se consolida, podríamos ver experiencias más integradas entre Google Workspace y aplicaciones externas, incluso en viviendas inteligentes y entornos domóticos.

Todo ello, eso sí, requerirá acuerdos técnicos con desarrolladores, definición clara de permisos y garantías de que la intervención de Gemini respeta las normas de cada servicio, algo que no siempre es sencillo en un ecosistema tan fragmentado como el de Android. También existen proyectos y modelos de dispositivos, como teléfonos para mayores que se controlan a distancia, que muestran otros escenarios de control remoto y sus retos.

La llegada de esta automatización con Gemini apunta a un cambio profundo en cómo nos relacionamos con el móvil: menos toques y más encargos verbales o escritos a un agente que hace de intermediario entre nosotros y las aplicaciones. Aunque las ventajas en comodidad son evidentes, el éxito real dependerá de que el sistema demuestre fiabilidad, ofrezca controles claros de privacidad y mantenga siempre la sensación de que es el usuario quien manda y no la inteligencia artificial.

Related article:
Aplicacion De Control Remoto