Google Cloud anunció actualizaciones importantes en su capa de software AI Hypercomputer, centradas en mejorar el rendimiento del entrenamiento y la inferencia, mejorar la resiliencia a escala y proporcionar un centro centralizado para los recursos de AI Hypercomputer.
Una de las actualizaciones clave es la compatibilidad con MaxText en las máquinas virtuales A3 Mega, lo que permite un entrenamiento más rápido y eficiente de modelos lingüísticos grandes (LLM). Estas máquinas virtuales, con la tecnología de las GPU NVIDIA H100 Tensor Core, ofrecen una mejora del doble en el ancho de banda de red de GPU a GPU con respecto a las máquinas virtuales A3.
Además, Google Cloud presentó SparseCore en Cloud TPU v5p, que proporciona aceleración de hardware para las operaciones de incrustación, lo que lleva a un mayor rendimiento de los sistemas de recomendación.
Para mejorar la inferencia de LLM, Google Cloud también introdujo la cuantificación de caché KV y los núcleos de atención irregular en JetStream, mejorando el rendimiento de la inferencia hasta 2 veces en Cloud TPU v5e.
Con estas actualizaciones, Google Cloud continúa empoderando a las organizaciones para acelerar sus viajes de IA al proporcionar una infraestructura eficiente y rentable. El enfoque en hardware y software optimizados, junto con recursos completos, hace que AI Hypercomputer sea una solución atractiva para las empresas que buscan aprovechar el poder de la IA.