Microsoft presenta Maia 200, el chip con el que quiere reforzar su IA en la nube

Última actualización: 30/01/2026
Autor: Isaac
  • Maia 200 es el nuevo chip de inferencia de Microsoft para acelerar la IA en Azure y reducir su dependencia de Nvidia.
  • Fabricado por TSMC en 3 nm, integra más de 140.000 millones de transistores y combina HBM3e y SRAM para maximizar el flujo de datos.
  • Ofrece más de 10 PFLOPS en FP4, hasta 5 PFLOPS en FP8 y un rendimiento por dólar un 30% superior al hardware previo de Microsoft.
  • Se está desplegando primero en centros de datos de Azure en EE. UU. y dará servicio a Copilot, Foundry y los modelos más recientes de OpenAI.

Chip de inteligencia artificial Maia 200

La infraestructura que sostiene los servicios de inteligencia artificial se ha convertido en un elemento estratégico para las grandes tecnológicas. Microsoft ha decidido dar un paso más en ese terreno con Maia 200, su nuevo chip de segunda generación pensado para la inferencia de modelos de IA a gran escala, con el que quiere ganar margen de maniobra frente a proveedores externos y ajustar mejor los costes de su nube Azure.

Lejos de ser un simple relevo técnico, Maia 200 se presenta como una pieza clave en la apuesta de Microsoft por controlar desde el hardware hasta los servicios finales de IA. El chip se integra de forma directa en los centros de datos de la compañía y apunta a reforzar servicios como Microsoft 365 Copilot y los modelos de OpenAI, con un foco claro en la eficiencia económica y energética.

Un acelerador de inferencia para aliviar el cuello de botella de la IA

Acelerador de IA Maia 200 en centros de datos

Con Maia 200, Microsoft pone el foco en la fase de inferencia, es decir, el momento en el que los modelos ya entrenados generan respuestas en tiempo real. Es en esta parte del proceso donde se concentran millones de consultas diarias procedentes de asistentes, herramientas ofimáticas, servicios corporativos o buscadores, y donde la eficiencia del hardware marca una gran diferencia en costes.

La compañía asegura que Maia 200 es el sistema de inferencia más eficiente que ha desplegado hasta ahora, con una mejora aproximada del 30 % en rendimiento por dólar frente al hardware de última generación que venía utilizando en su flota de centros de datos. Ese indicador no es menor: en un contexto de uso masivo de modelos de lenguaje y generadores de contenido, cada punto porcentual que se ahorra en infraestructura cuenta.

Además, el diseño del chip está orientado a soportar modelos de enorme tamaño sin que se disparen la latencia ni el consumo energético. Microsoft sostiene que un nodo completo de Maia 200 puede ejecutar los modelos más grandes disponibles en la actualidad, dejando incluso margen para arquitecturas aún más ambiciosas en el futuro cercano.

  La inteligencia artificial de Google DeepMind revoluciona el estudio de inscripciones romanas

Este nuevo acelerador se integra en la arquitectura de Azure como una pieza especializada en ejecutar cargas de trabajo de IA a gran escala, en combinación con otros componentes de cómputo. El objetivo es que los clientes empresariales dispongan de más opciones para desplegar aplicaciones basadas en IA generativa con mejor rendimiento y precios más ajustados.

Tecnología de 3 nanómetros y más de 140.000 millones de transistores

Detalle técnico del chip Maia 200

En el plano técnico, Maia 200 recurre al proceso de fabricación de 3 nanómetros de Taiwan Semiconductor Manufacturing Company (TSMC), uno de los más avanzados actualmente en producción comercial. Cada chip integra más de 140.000 millones de transistores, un salto de complejidad que responde a las necesidades de los modelos de gran escala que se ejecutan hoy en la nube.

El acelerador combina núcleos especializados para operar con precisiones reducidas FP4 y FP8, algo ya habitual en los chips de última generación para IA, pero que aquí se lleva más allá. Según las cifras divulgadas por Microsoft, Maia 200 puede superar los 10,1 petaFLOPS en FP4 y alrededor de 5 petaFLOPS en FP8, dentro de un presupuesto energético que ronda los 750 vatios por sistema en chip.

Para sostener ese nivel de cálculo, el sistema de memoria ha sido rediseñado prácticamente desde cero. El chip incorpora 216 GB de memoria HBM3e con hasta 7 TB/s de ancho de banda, acompañados de 272 MB de SRAM integrada. Esta combinación está pensada para mantener los modelos “alimentados” sin cuellos de botella en el flujo de datos, algo crítico cuando se manejan contextos extensos y lotes de solicitudes simultáneas.

La plataforma introduce también una red de interconexión de dos niveles basada en Ethernet estándar, respaldada por una capa de transporte propia y una tarjeta de red integrada. Esta arquitectura permite, en teoría, escalar clústeres de inferencia hasta varios miles de aceleradores con un comportamiento predecible en operaciones colectivas, reduciendo a la vez el coste total de propiedad en los centros de datos.

En la práctica, todo este entramado técnico persigue una idea bastante clara: maximizar el rendimiento efectivo en la generación de tokens y reducir la latencia en aplicaciones donde la velocidad de respuesta es clave, desde asistentes conversacionales hasta herramientas de productividad con IA integrada.

  GeForce Now da su mayor salto con RTX 5080 y calidad cinematográfica

Integración en Azure, Copilot y modelos avanzados de OpenAI

Maia 200 no llega como un componente aislado, sino como parte de la infraestructura heterogénea de IA que Microsoft está construyendo alrededor de Azure. El chip se utilizará para ejecutar múltiples modelos, entre ellos las versiones más recientes de los GPT desarrollados en colaboración con OpenAI, así como para impulsar servicios estratégicos como Microsoft 365 Copilot y la plataforma Microsoft Foundry.

El equipo de Microsoft Superintelligence también planea recurrir a Maia 200 para generar datos sintéticos y llevar a cabo tareas de aprendizaje por refuerzo, con el objetivo de mejorar modelos internos de próxima generación. En escenarios de creación de datos sintéticos, la compañía destaca que el diseño del chip ayuda a acelerar la producción y filtrado de conjuntos de datos específicos de dominio, lo que se traduce en señales de entrenamiento más actuales y precisas.

Esta integración vertical —que abarca desde el silicio hasta las aplicaciones que usan los usuarios finales— busca optimizar el rendimiento extremo a extremo en la nube. Para las empresas y administraciones públicas que dependen de Azure, este enfoque pretende ofrecer una combinación de potencia, control de costes y garantías de seguridad que resulte competitiva frente a otras nubes.

La compañía está ofreciendo además herramientas de desarrollo y kits de software en fase temprana, pensados para universidades y proyectos de código abierto que quieran experimentar con el nuevo hardware. Con ello, Microsoft intenta fomentar un ecosistema de desarrolladores y socios que aproveche al máximo las capacidades de Maia 200.

Despliegue en centros de datos y estrategia frente a otros proveedores

El despliegue inicial de Maia 200 se está llevando a cabo en centros de datos de Azure en la región US Central, cerca de Des Moines (Iowa), con planes de ampliación a US West 3, próxima a Phoenix (Arizona), y posteriormente a otras zonas. La compañía adopta así una aproximación gradual para validar el comportamiento del chip en entornos reales antes de extenderlo a más regiones, incluidas las europeas.

Este movimiento se entiende en el contexto de una competencia intensa entre los grandes proveedores de nube. Amazon, Google y Microsoft viven una carrera por contar con chips propios que reduzcan la dependencia de Nvidia, hasta ahora el actor dominante en aceleradores de IA. Los lanzamientos de Trainium por parte de Amazon y las TPUs de Google han marcado el terreno, y ahora Microsoft entra de lleno en esa guerra del silicio con su propia propuesta.

  Claude Code en versión web: funciones, acceso y seguridad

Las comparaciones con los rivales son explícitas: la compañía sostiene que Maia 200 triplica el rendimiento FP4 de la tercera generación de Amazon Trainium y ofrece un rendimiento FP8 superior al de la séptima generación de Google TPU. Más allá de las cifras, el mensaje es que Microsoft pretende situarse al mismo nivel —o por encima— de quienes hasta ahora marcaban el ritmo en este segmento.

Al mismo tiempo, la empresa insiste en que este lanzamiento no supone romper con Nvidia, sino más bien diversificar su base de hardware para ganar flexibilidad y poder de negociación. Seguirá utilizando chips de terceros, pero con más margen para decidir en qué capas de su infraestructura quiere depender de proveedores externos y en cuáles prefiere apostar por soluciones propias. Este enfoque se enmarca también en movimientos recientes relacionados con Nvidia y Groq en el mercado de aceleradores.

Desde el punto de vista económico, el desarrollo de Maia 200 y de futuras generaciones, como el ya mencionado Maia 300 en el que Microsoft afirma estar trabajando, se encuadra en una estrategia a largo plazo para reducir costes estructurales y reforzar su posición en la nube. Controlar el hardware crítico le permite ajustar mejor sus inversiones en centros de datos y responder con más rapidez a cambios en la demanda de servicios de IA.

Con Maia 200, Microsoft deja claro que la carrera por la inteligencia artificial no se libra solo en los modelos y las aplicaciones visibles para el usuario, sino también en los chips que permanecen ocultos en los centros de datos. Este nuevo acelerador de inferencia combina proceso puntero de 3 nanómetros, un sistema de memoria agresivo y una integración estrecha con Azure para ofrecer más rendimiento por euro invertido y competir de tú a tú con Amazon, Google y Nvidia. Falta por ver cómo se traducirá todo ello en la expansión hacia Europa y en la experiencia real de empresas y desarrolladores, pero el mensaje de fondo es evidente: la batalla por el control de la infraestructura de IA acaba de subir otro peldaño.

Amazon integra IA, chips y computación cuántica bajo la dirección de Peter DeSantis
Artículo relacionado:
Amazon reorganiza su apuesta en IA, chips y computación cuántica bajo el mando de Peter DeSantis