Google Cloud ha anunciado la incorporación de la compatibilidad con las GPU NVIDIA L4 a Cloud Run, en versión preliminar. Esto abre un gran abanico de nuevos casos prácticos para los desarrolladores de Cloud Run, entre los que se incluyen:
* Realizar inferencias en tiempo real con modelos abiertos ligeros, como los modelos Gemma (2B/7B) de código abierto de Google o Llama 3 (8B) de Meta, para crear chatbots personalizados o resúmenes de documentos sobre la marcha, al tiempo que se escala para gestionar picos de tráfico de usuarios.
* Ofrecer modelos de IA generativa personalizados y ajustados, como la generación de imágenes adaptada a la marca de tu empresa, y reducir la escala para optimizar los costes cuando nadie los utiliza.
* Acelerar tus servicios de Cloud Run de uso intensivo de computación, como el reconocimiento de imágenes a petición, la transcodificación y transmisión de vídeo, y la renderización 3D.
Como plataforma totalmente gestionada, Cloud Run te permite ejecutar tu código directamente sobre la infraestructura escalable de Google, combinando la flexibilidad de los contenedores con la simplicidad de la tecnología sin servidor para ayudarte a aumentar tu productividad. Con Cloud Run, puedes ejecutar servicios de frontend y backend, trabajos por lotes, desplegar sitios web y aplicaciones, y gestionar cargas de trabajo de procesamiento de colas, todo ello sin tener que gestionar la infraestructura subyacente.
Al mismo tiempo, muchas cargas de trabajo que realizan inferencias de IA, especialmente las aplicaciones que exigen un procesamiento en tiempo real, requieren aceleración por GPU para ofrecer experiencias de usuario con gran capacidad de respuesta. Gracias a la compatibilidad con las GPU NVIDIA, puedes realizar inferencias de IA online a petición utilizando los LLM que elijas en segundos.
Los primeros clientes están entusiasmados con la combinación de Cloud Run y las GPU NVIDIA.
"La compatibilidad con las GPU de Cloud Run ha supuesto un cambio radical para nuestras aplicaciones de inferencia en tiempo real. La baja latencia de arranque en frío es impresionante, lo que permite a nuestros modelos ofrecer predicciones casi al instante, algo fundamental para las experiencias de los clientes en las que el tiempo es un factor crítico. Además, las GPU de Cloud Run mantienen una latencia de servicio mínima y constante bajo diversas cargas, lo que garantiza que nuestras aplicaciones de IA generativa sean siempre receptivas y fiables, al tiempo que se escalan sin esfuerzo a cero durante los periodos de inactividad. En general, las GPU de Cloud Run han mejorado significativamente nuestra capacidad de ofrecer resultados rápidos, precisos y eficientes a nuestros usuarios finales". - Thomas MENARD, Jefe de IA - Global Beauty Tech, L'Oréal
En general, la incorporación de la compatibilidad con las GPU NVIDIA a Cloud Run es un avance significativo para los desarrolladores que buscan crear aplicaciones de inferencia de IA en tiempo real. Esta función permitirá a los desarrolladores aprovechar la potencia de las GPU NVIDIA, al tiempo que disfrutan de la facilidad de uso y la escalabilidad de Cloud Run.
Para empezar a utilizar Cloud Run con GPU NVIDIA, puedes registrarte en el programa de vista previa en g.co/cloudrun/gpu.