Google Cloud ha publicado una entrada de blog que explica cómo implementar el modelo Meta Llama 3.2-1B-Instruct en Cloud Run utilizando GPUs. Esta publicación proporciona instrucciones paso a paso sobre cómo aprovechar Cloud Run GPU para implementar modelos de lenguaje grandes (LLM) de código abierto. La publicación también cubre las mejores prácticas para optimizar el proceso de desarrollo utilizando pruebas de modelos locales con la imagen de Docker de Text Generation Inference (TGI), lo que facilita la resolución de problemas y aumenta la productividad. Con Cloud Run GPU, los desarrolladores se benefician de la misma disponibilidad bajo demanda y escalabilidad sin esfuerzo que les encanta con la CPU y la memoria de Cloud Run, con la potencia adicional de las GPU de NVIDIA. Cuando su aplicación está inactiva, las instancias equipadas con GPU se reducen automáticamente a cero, optimizando sus costos. La publicación también proporciona consejos sobre cómo mejorar los inicios en frío utilizando Cloud Storage FUSE. Cloud Storage FUSE permite a los desarrolladores montar buckets de Google Cloud Storage como un sistema de archivos, lo que reduce significativamente los tiempos de inicio en frío.