Google Cloud ha anunciado una nueva función en Dataflow que permite lecturas de origen personalizadas con equilibrio de carga, con el objetivo de reducir costes y aumentar la eficiencia. Esto supone una solución muy útil al reto que supone escalar las cargas de trabajo, especialmente en entornos de streaming donde la latencia se supervisa de cerca.

Muchas de las estrategias modernas de ajuste automático tienen dificultades para hacer frente a las claves o trabajadores calientes que provocan cuellos de botella en el procesamiento y crean retrasos, lo que afecta a la frescura de los datos. Por ejemplo, un entorno de streaming como Apache Kafka puede crear puntos calientes en la canalización. Un escalador automático puede intentar compensarlo a posteriori con unidades de computación adicionales, pero esto no solo es costoso, sino también lento. Un escalador automático solo reacciona cuando ya existe un retraso de mensajes acumulados e incurre en una sobrecarga al poner en marcha nuevos trabajadores.

La nueva función de equilibrio de carga funciona distribuyendo mejor las cargas de trabajo y aliviando de forma proactiva a los trabajadores sobrecargados. Esto permite a las canalizaciones enviar más datos con menos recursos y menores latencias. Casos de uso reales de los principales clientes de Dataflow demuestran la eficacia de esta función para reducir los costes operativos y mejorar el rendimiento de las canalizaciones.

Por ejemplo, un cliente pudo reducir los eventos de escalado de trabajadores en un 75%, lo que supuso una reducción de los costes diarios del 64% en Google Compute Engine, y el retraso se redujo de ~1 minuto a ~10 segundos.

Esta función de equilibrio de carga está activada de forma predeterminada para todos los clientes de Dataflow en todas las regiones, por lo que está disponible para su uso sin necesidad de configuración adicional.

En conclusión, la introducción de lecturas de origen personalizadas con equilibrio de carga en Dataflow marca un paso significativo hacia la mejora de la eficiencia de las canalizaciones y la reducción de costes, especialmente en entornos de streaming donde la velocidad y la eficiencia son primordiales.