NVIDIA Dynamo aumenta el desempeño de inferencia al tiempo que reduce los costos para escalar la computación de tiempo de prueba; Las optimizaciones de inferencia en NVIDIA Blackwell aumentan el rendimiento en 30 veces en DeepSeek-R1
SAN JOSÉ, California.—GTC—18 de marzo de 2025—NVIDIA presenta NVIDIADynamo, una biblioteca de inferencia de código abierto para acelerar y escalar modelos de razonamiento de IA en fábricas de IA al costo más bajo y con la más alta eficiencia.
Orquestar y coordinar de manera eficiente las solicitudes de inferencia de IA en una gran flota de GPU es crucial para garantizar que las fábricas de IA se ejecuten al menor costo posible y maximizar la generación de ingresos por tókenes.
A medida que el razonamiento de IA se vuelve más común, cada modelo de IA generará decenas de miles de tókenes que se usarán para “pensar” con cada instrucción. Aumentar el desempeño de la inferencia al tiempo que se reduce continuamente su costo acelera el crecimiento e impulsa las oportunidades de ingresos para los proveedores de servicios.
NVIDIA Dynamo es un nuevo software de servicio de inferencia de IA hecho para maximizar la generación de ingresos por tókenes para fábricas de IA que implementan modelos de IA con razonamiento. Orquesta y acelera la comunicación de inferencia en miles de GPU y usa un servicio desagregado para separar las fases de procesamiento y generación de grandes modelos de lenguaje (LLM) en diferentes GPU. Esto permite que cada fase se optimice de forma independiente para sus necesidades específicas y garantiza la máxima utilización de los recursos de la GPU.
“Las industrias de todo el mundo están entrenando modelos de IA para que piensen y aprendan de diferentes maneras, lo que los hace más sofisticados con el tiempo”, dice Jensen Huang, fundador y CEO de NVIDIA. “Para permitir un futuro de IA personalizada y con razonamiento, NVIDIA Dynamo ayuda al servirles a estos modelos a escala, lo que genera ahorros y aumenta la eficiencia en las fábricas de IA”.
Con la misma cantidad de GPU, Dynamo duplica el rendimiento y los ingresos de las fábricas de IA que utilizan los modelos Llama en la plataforma NVIDIA Hopper™ actual. Al ejecutar el modelo DeepSeek-R1 en un clúster grande de racks NVL72 GB200, las optimizaciones de inferencia inteligente de NVIDIA Dynamo también multiplican por más de 30 la cantidad de tokens generados por GPU.
Para lograr estas mejoras en el desempeño de la inferencia, NVIDIA Dynamo incorpora funciones que le permiten aumentar el rendimiento y reducir los costos. Puede agregar, eliminar y reasignar GPU dinámicamente en respuesta a volúmenes y tipos de solicitudes fluctuantes, así como identificar GPU específicas en clústeres grandes que pueden minimizar los cálculos de respuesta y las consultas de enrutamiento. También puede descargar datos de inferencia en dispositivos de memoria y almacenamiento más asequibles y recuperarlos rápidamente cuando sea necesario, lo que minimiza los costos de inferencia.
NVIDIA Dynamo, el sucesor del ampliamente adoptado NVIDIA Triton Inference Server, es de código completamente abierto y es compatible con PyTorch, SGLang, TensorRT-LLM y vLLM. Le permitirá al ecosistema acelerar la adopción de la inferencia de IA, lo que incluye a AWS, Cohere, CoreWeave, Dell, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, Perplexity, Together AI y VAST.
7
“Con la librería NVIDIA Dynamo, estamos ayudando a las empresas a acelerar los modelos lógicos de IA en las fábricas, ofreciendo mayor eficiencia y ahorro de costes. Es un gran avance en el rendimiento de la inferencia”, afirma Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica.
Inferencia Superpotenciada
NVIDIA Dynamo funciona al mapear el conocimiento que los sistemas de inferencia tienen en la memoria a partir de la prestación de servicios a solicitudes anteriores, conocida como caché de KV, en potencialmente miles de GPU.
Luego, enruta las nuevas solicitudes de inferencia a las GPU que tienen la mejor coincidencia de conocimiento, lo que evita costosos recálculos y libera las GPU para que respondan a las nuevas solicitudes entrantes.
“Para manejar cientos de millones de solicitudes cada mes, confiamos en las GPU y el software de inferencia de NVIDIA para ofrecer el desempeño, la confiabilidad y la escala que nuestro negocio y nuestros usuarios exigen”, dice Denis Yarats, director de tecnología de Perplexity AI. “Esperamos aprovechar Dynamo, con sus capacidades mejoradas de servicio distribuido, para impulsar aún más la eficiencia del servicio de inferencia y satisfacer las demandas de cómputo de los nuevos modelos de razonamiento de IA”.
El provedor de inteligência artificial
Cohere, un proveedor de IA, planea impulsar las capacidades de agentes de IA en su serie de modelos Command que utilizan NVIDIA Dynamo.
“La escalabilidad de modelos de IA avanzados requiere una programación sofisticada de múltiples GPU, una coordinación perfecta y bibliotecas de comunicación de baja latencia que transfieran contextos de razonamiento a la perfección en la memoria y el almacenamiento”, dice Saurabh Baji, vicepresidente sénior de ingeniería de Cohere. “Esperamos que NVIDIA Dynamo nos ayude a ofrecerles una experiencia de usuario de primer nivel a nuestros clientes empresariales”.
Prestación de servicios desagregada
La plataforma de inferencia NVIDIA Dynamo también es compatible con la prestación de servicios desagregada, que asigna las diferentes fases computacionales de los LLM; que incluyen comprender las consultas de los usuarios y luego generar la mejor respuesta; a diferentes GPU. La prestación de servicios desagregada permite que cada fase se ajuste con precisión y que se le brinden recursos de forma independiente, lo que mejora el rendimiento y les brinda respuestas más rápidas a los usuarios.
Together AI, la nube de aceleración de IA, está buscando integrar su Together Inference Engine con NVIDIA Dynamo para habilitar el escalado perfecto de las cargas de trabajo de inferencia en los nodos de la GPU. Esto también le permite a Together AI abordar dinámicamente los cuellos de botella de tráfico en varias etapas del pipeline del modelo.
“Escalar modelos de razonamiento de manera rentable requiere nuevas técnicas de inferencia avanzadas, que incluyen la prestación de servicios desagregada y el enrutamiento consciente de contexto”, dice Ce Zhang, director de tecnología de Together AI. “Together IA proporciona un desempeño líder en la industria mediante nuestro propio motor de inferencia. La apertura y la modularidad de NVIDIA Dynamo nos permitirán conectar a la perfección sus componentes a nuestro motor para atender a más solicitudes al tiempo que optimizamos el uso de los recursos, lo que maximiza nuestra inversión en computación acelerada. Estamos entusiasmados de aprovechar las capacidades innovadoras de la plataforma para llevarles modelos de razonamiento de código abierto a nuestros usuarios de manera rentable”.
NVIDIA Dynamo en detalle
NVIDIA Dynamo incluye cuatro innovaciones clave que reducen los costos del servicio de inferencia y mejoran la experiencia del usuario:
- Planeador de GPU: un motor de planificación que agrega y elimina GPU dinámicamente para ajustarse a la demanda fluctuante de los usuarios y así evitar el sobre o subaprovisionamiento de la GPU.
- Enrutador Inteligente: un enrutador consciente de LLM que dirige las solicitudes a través de grandes flotas de GPU para minimizar los costosos recálculos de GPU de solicitudes repetidas o superpuestas; esto libera a las GPU para que respondan a las nuevas solicitudes entrantes.
- Biblioteca de Comunicaciones de Baja Latencia: una biblioteca optimizada para inferencia que admite la comunicación de GPU a GPU de última generación y abstrae la complejidad del intercambio de datos entre dispositivos heterogéneos, lo que acelera la transferencia de datos.
- Administrador de Memoria: un motor que descarga y recarga de forma inteligente datos de inferencia hacia y desde dispositivos de memoria y almacenamiento de menor costo sin afectar la experiencia del usuario.
NVIDIA Dynamo estará disponible en los microservicios NVIDIA NIM™ y será compatible en una futura versión con la plataforma de software NVIDIA AI Enterprise con seguridad, soporte y estabilidad de nivel de producción.
Obtenga más información mirando la conferencia principal de NVIDIA GTC , leyendo este blog en Dynamo y registrándose para las sesiones de NVIDIA y los líderes de la industria en la feria, que se desarrollará hasta el 21 de marzo.
Acerca de NVIDIA
Desde su fundación en 1993, NVIDIA (NASDAQ: NVDA) ha sido pionera en el campo de la aceleración computacional. La invención de la GPU por parte de la compañía en 1999 estimuló el crecimiento del mercado de juegos para PC, redefinió los gráficos por ordenador, inauguró la era de la IA moderna y ha contribuido a la digitalización industrial en todos los mercados. En la actualidad, NVIDIA es una empresa de infraestructuras informáticas completas con soluciones a escala de centro de datos que están revolucionando la industria. Para saber más: Link.
Ver también:
Facebook: NVIDIALatinoamérica
Twitter: NVIDIALatinoamérica
Instagram: NVIDIALatam
YouTube: NVIDIA Latinoamérica
LinkedIn: NVIDIALatinoamérica
Ciertas declaraciones en este comunicado de prensa, incluidas, entre otras, las declaraciones sobre: los beneficios, el impacto, la disponibilidad y el rendimiento de los productos, servicios y tecnologías de NVIDIA; terceros que adoptan los productos y tecnologías de NVIDIA y los beneficios e impacto de los mismos; industrias de todo el mundo que entrenan modelos de IA para pensar y aprender de diferentes maneras, haciéndolos más sofisticados con el tiempo; y para permitir un futuro de IA de razonamiento personalizado, NVIDIA Dynamo que ayuda a servir estos modelos a escala, impulsando ahorros de costos y eficiencias en las fábricas de IA son declaraciones prospectivas que están sujetas a riesgos e incertidumbres que podrían causar que los resultados sean materialmente diferentes a las expectativas. Los factores importantes que podrían causar que los resultados reales difieran materialmente incluyen: condiciones económicas globales; nuestra dependencia de terceros para fabricar, ensamblar, empaquetar y probar nuestros productos; el impacto del desarrollo tecnológico y la competencia; desarrollo de nuevos productos y tecnologías o mejoras a nuestros productos y tecnologías existentes; aceptación en el mercado de nuestros productos o los productos de nuestros socios; defectos de diseño, fabricación o software; cambios en las preferencias o demandas de los consumidores; cambios en los estándares e interfaces de la industria; pérdida inesperada de rendimiento de nuestros productos o tecnologías cuando se integran en sistemas; así como otros factores detallados periódicamente en los informes más recientes que NVIDIA presenta ante la Comisión de Bolsa y Valores (SEC), incluyendo, entre otros, su informe anual en el Formulario 10-K y los informes trimestrales en el Formulario 10-Q. Copias de los informes presentados ante la SEC están publicadas en el sitio web de la empresa y NVIDIA las puede obtener de forma gratuita. Estas declaraciones prospectivas no garantizan el rendimiento futuro y se refieren únicamente a la fecha del presente documento. Salvo que lo exija la ley, NVIDIA no asume ninguna obligación de actualizar estas declaraciones prospectivas para reflejar eventos o circunstancias futuras.
Muchos de los productos y funciones descritos aquí se encuentran en diversas etapas y se ofrecerán según su disponibilidad. Las declaraciones anteriores no constituyen ni deben interpretarse como un compromiso, promesa u obligación legal, y el desarrollo, lanzamiento y plazo de cualquier característica o funcionalidad descrita para nuestros productos están sujetos a cambios y quedan a la entera discreción de NVIDIA. NVIDIA no se responsabiliza por la falta de entrega o el retraso en la entrega de ninguno de los productos, características o funciones aquí descritos.
© 2025 NVIDIA Corporation. Todos los derechos reservados. NVIDIA, el logotipo de NVIDIA, NVIDIA Hopper, NVIDIA NIM, NVIDIA Triton Inference Server y TensorRT son marcas comerciales o marcas registradas de NVIDIA Corporation en EE. UU. y otros países. Otros nombres de empresas y productos pueden ser marcas comerciales de las respectivas empresas con las que están asociados. Las características, los precios, la disponibilidad y las especificaciones están sujetos a cambios sin previo aviso.
Informações para a imprensa:
Sing Comunicação de Resultados
19/03/2025