Microsoft presenta Maia 200, el nuevo chip de inferencia de IA para su nube Azure

Última actualización: 30/01/2026
Autor: Isaac
  • Maia 200 es el acelerador de inferencia de segunda generación de Microsoft, fabricado en 3 nm y con más de 140.000 millones de transistores.
  • El chip se integra en Azure para impulsar servicios como Microsoft 365 Copilot, Foundry y los últimos modelos GPT de OpenAI.
  • Microsoft asegura un 30% más de rendimiento por euro frente a su hardware previo y afirma superar a Amazon Trainium y Google TPU en FP4 y FP8.
  • El despliegue comienza en centros de datos de Azure en EE. UU., con una estrategia de reducción de dependencia de Nvidia y mayor control de su infraestructura de IA.

Chip de inteligencia artificial Maia 200

La infraestructura que sostiene buena parte de los servicios de inteligencia artificial en la nube sigue evolucionando a toda velocidad, y Microsoft ha decidido mover ficha con su propio silicio. La compañía ha dado a conocer Maia 200, un acelerador específico para inferencia pensado para ejecutar modelos de gran tamaño dentro de sus centros de datos Azure.

Con este lanzamiento, el gigante de Redmond refuerza su estrategia de reducir la dependencia de Nvidia y plantar cara a los chips propios de Amazon y Google. Más allá del titular, Maia 200 se presenta como una pieza clave para abaratar costes, ganar eficiencia y sostener el crecimiento de servicios basados en modelos avanzados como GPT, Copilot o las plataformas internas de Microsoft.

Qué es exactamente Microsoft Maia 200

Maia 200 es la segunda generación de chips de IA de Microsoft, un procesador diseñado exclusivamente para tareas de inferencia, es decir, la fase en la que los modelos ya entrenados generan respuestas, análisis o contenido en tiempo real. A diferencia del Maia 100, que nunca llegó a abrirse a clientes, esta nueva versión ya se está desplegando en producción dentro de la nube Azure.

La compañía lo describe como el sistema de inferencia más eficiente que ha puesto en marcha hasta ahora en sus centros de datos. Su objetivo no es entrenar modelos desde cero, sino ejecutar a gran escala sistemas ya entrenados, algo crucial en un contexto donde millones de peticiones diarias tienen un impacto directo en la factura energética y en la experiencia de usuario.

Según Microsoft, Maia 200 se ha desarrollado para responder a las necesidades de modelos de lenguaje extensos y aplicaciones de IA generativa que consumen grandes volúmenes de datos, como asistentes corporativos, herramientas ofimáticas con IA integrada o servicios de análisis avanzado.

  OpenAI prepara una red social de vídeos con IA al estilo TikTok

Centro de datos con chips Maia 200

Tecnología de 3 nm y más de 140.000 millones de transistores

El chip ha sido fabricado por TSMC utilizando su proceso de 3 nanómetros, uno de los nodos más avanzados actualmente en uso comercial. Esta tecnología de producción permite integrar más de 140.000 millones de transistores en cada unidad, una cifra que refleja el salto de complejidad necesario para manejar modelos de IA de última generación.

En cuanto a potencia de cálculo, Maia 200 combina núcleos optimizados para precisiones FP4 y FP8, las más habituales hoy en tareas de inferencia de gran escala. Microsoft indica que el acelerador es capaz de superar los 10 petaFLOPS en FP4 y rondar los 5 petaFLOPS en FP8, dentro de un consumo máximo aproximado de 750 vatios por sistema en chip.

La compañía subraya que estos valores permiten ejecutar los modelos comerciales más grandes disponibles, dejando margen para arquitecturas aún más exigentes en los próximos años. Esta capacidad es clave para sostener el desarrollo de nuevas versiones de GPT y otros modelos fundacionales que van elevando el listón de recursos necesarios.

Un sistema de memoria pensado para mover muchos datos sin atascos

Más allá de la potencia bruta, Microsoft ha puesto el foco en el flujo de datos interno. Maia 200 incluye 216 GB de memoria HBM3e con hasta 7 TB/s de ancho de banda, acompañados de 272 MB de SRAM integrada en el propio chip. Esta combinación busca reducir al mínimo los cuellos de botella en el acceso a memoria, uno de los grandes retos de la inferencia a gran escala.

La arquitectura está diseñada para que los modelos de gran tamaño dispongan de datos de forma constante sin necesidad de realizar transferencias masivas fuera del chip, lo que ayuda a recortar consumo y latencia. Microsoft explica que este enfoque disminuye la presión sobre el ancho de banda externo y mejora la eficiencia energética global del sistema.

El conjunto se completa con motores dedicados al movimiento de datos, responsables de alimentar de forma continua los núcleos de cálculo. De este modo, el acelerador puede mantener un alto nivel de utilización incluso con cargas de trabajo complejas y heterogéneas, algo muy habitual en aplicaciones empresariales y servicios en la nube.

Eficiencia por euro y comparación con Amazon y Google

Uno de los mensajes centrales de Microsoft gira en torno a la eficiencia económica del Maia 200. La compañía sostiene que este chip ofrece aproximadamente un 30 % más de rendimiento por dólar (o por euro invertido, trasladado al contexto europeo) que el hardware de última generación que ya tenía desplegado en sus centros de datos.

  Jeff Bezos ve factibles los centros de datos en el espacio

Además, la firma no ha dudado en compararse directamente con otros grandes proveedores de nube. Según sus datos internos, Maia 200 triplicaría el rendimiento FP4 del Amazon Trainium de tercera generación y superaría el rendimiento FP8 de la séptima generación de Google TPU, dos de las alternativas más avanzadas en el mercado de aceleradores de IA propios.

Conviene recordar que estas cifras proceden de pruebas controladas por la propia Microsoft y, de momento, no se han publicado métricas independientes detalladas. Aun así, el posicionamiento es claro: la compañía quiere situar a Maia 200 como una opción competitiva no solo a nivel técnico, sino también en coste total de propiedad para la operación de grandes clústeres de inferencia.

Integración con Azure, Copilot y los modelos de OpenAI

Maia 200 no se concibe como un producto aislado, sino como parte de una infraestructura heterogénea de IA dentro de Azure. El acelerador se utilizará para dar servicio a múltiples modelos, incluyendo las versiones más recientes de la familia GPT desarrollada por OpenAI, que se apoyan en la nube de Microsoft para su ejecución comercial.

Entre los servicios más directamente beneficiados destaca Microsoft 365 Copilot, la apuesta de la compañía para integrar capacidades generativas en herramientas tan extendidas como Word, Excel, PowerPoint, Outlook o Teams. También se apoyarán en Maia 200 plataformas como Microsoft Foundry y proyectos avanzados enmarcados en el área de Superinteligencia de la empresa.

En este último caso, el acelerador se empleará, entre otras cosas, para generación de datos sintéticos y procesos de aprendizaje por refuerzo, dos técnicas cada vez más habituales para mejorar modelos internos de nueva generación. El diseño del chip pretende acelerar tanto la creación como el filtrado de grandes volúmenes de datos específicos de dominio.

Despliegue en centros de datos y hoja de ruta

Microsoft ha comenzado el despliegue de Maia 200 en centros de datos de Azure en la región US Central, cerca de Des Moines (Iowa), y planea extenderlo próximamente a la región US West 3, en el entorno de Phoenix (Arizona). A partir de ahí, la compañía habla de una expansión gradual a otros emplazamientos conforme se validen el rendimiento y la fiabilidad en producción.

  Inteligencia artificial en la detección de tumores: avances punteros en la medicina actual

Este enfoque escalonado permite ajustar la configuración de sistemas, redes e integración con los distintos servicios de Azure antes de un despliegue global. Para Europa y España, la llegada de este tipo de hardware suele producirse en fases posteriores, pero marca el camino de la futura capacidad de cómputo que estará disponible para empresas, administraciones y desarrolladores que utilicen la nube de Microsoft.

Al mismo tiempo, la compañía ya ha dejado entrever que trabaja en un sucesor denominado Maia 300, lo que indica que el desarrollo de silicio propio no es un experimento puntual, sino una apuesta a largo plazo dentro de su estrategia de infraestructura de IA.

Competencia, dependencia de Nvidia y estrategia de silicio propio

El movimiento de Microsoft se enmarca en una competencia intensa entre los grandes proveedores de nube por controlar las piezas clave de la cadena de valor de la inteligencia artificial. Tanto Google, con sus TPU, como Amazon, con las familias Trainium e Inferentia, llevan años impulsando sus propios aceleradores.

Hasta ahora, Nvidia se mantenía como proveedor casi imprescindible de GPUs para IA, pero la presión sobre la cadena de suministro y los costes ha llevado a los grandes actores del sector a apostar por diseños internos. Maia 200 forma parte de esta tendencia, ofreciendo a Microsoft mayor margen de maniobra y capacidad de negociación.

La compañía insiste en que esta estrategia no supone una ruptura con Nvidia, sino una diversificación de su infraestructura, combinando hardware de distintos fabricantes y sus propios chips según las necesidades de cada carga de trabajo. Para los clientes de Azure, esto se traduce en una oferta más amplia y en la posibilidad de aprovechar configuraciones optimizadas para casos de uso concretos.

En conjunto, Maia 200 refuerza la idea de que la próxima fase de la inteligencia artificial en la nube se jugará tanto en el terreno del software como en el del silicio. Para Microsoft, controlar desde el chip hasta las aplicaciones finales le permite ajustar rendimiento, costes y seguridad con mayor precisión, algo que será especialmente relevante en Europa y España, donde la demanda de soluciones de IA reguladas, eficientes y escalables no deja de crecer.