Witold Kepinski - 15 november 2024

Google Cloud verhoogt schaal Kubernetes Engine voor training van enorme AI-modellen

Naarmate generatieve AI zich ontwikkelt, ziet google de transformerende impact die het heeft op verschillende sectoren en ons dagelijks leven. En met de toename van de omvang van Large Language Models (LLMs) – huidige modellen bereiken honderden miljarden parameters, terwijl de meest geavanceerde modellen de 2 biljoen naderen – zal de behoefte aan rekenkracht alleen maar toenemen. In feite vereist het trainen van deze grote modellen op moderne accelerators al clusters met meer dan 10.000 nodes. Google Kubernetes Engine (GKE) kan deze veeleisende trainingstaken aan met ondersteuning voor clusters van 15.000 nodes – de grootste ter wereld. Google introduceert, in afwachting van nog grotere modellen, ondersteuning voor clusters van maar liefst 65.000 nodes.

Google Cloud verhoogt schaal Kubernetes Engine voor training van enorme AI-modellen image

Met ondersteuning voor maximaal 65.000 nodes beweert Google Cloud dat GKE meer dan 10 keer zo groot is als de twee andere grootste aanbieders van public clouddiensten (AWS en Microsoft Azure, red.).

Schalen naar 65.000 nodes biedt broodnodige capaciteit voor de meest rekenintensieve AI-workloads ter wereld. In combinatie met innovaties in accelerator-rekenkracht stelt dit klanten in staat om de trainingstijd van modellen te verkorten of modellen te schalen naar meerdere biljoenen parameters of meer. Elke node is uitgerust met meerdere accelerators (bijvoorbeeld Cloud TPU v5e-node met vier chips), waardoor meer dan 250.000 accelerators in één cluster kunnen worden beheerd, aldus Google.

Innovatie onder de motorkap

Deze prestatie wordt volgens Google mogelijk gemaakt door verschillende verbeteringen: "ten eerste schakelen we GKE over van de open-source etcd, een gedistribueerde key-value store, naar een nieuwe, robuustere key-value store gebaseerd op Spanner, de gedistribueerde database van Google die vrijwel onbeperkte schaalbaarheid biedt. Naast de mogelijkheid om grotere GKE-clusters te ondersteunen, zal deze wijziging een nieuw niveau van betrouwbaarheid voor GKE-gebruikers inluiden, met verbeterde latentie van clusterbewerkingen (bijvoorbeeld clusteropstart en upgrades) en een stateless cluster control plane. Door de etcd API te implementeren voor onze Spanner-gebaseerde opslag, zorgen we voor backward compatibility en voorkomen we dat er wijzigingen in de kern van Kubernetes nodig zijn om de nieuwe technologie te adopteren."

Bovendien schaalt GKE nu aanzienlijk sneller dankzij een grote revisie van de GKE-infrastructuur die de Kubernetes control plane beheert, zodat implementaties met minder vertraging kunnen worden uitgevoerd. "Deze verbeterde cluster control plane biedt meerdere voordelen, waaronder de mogelijkheid om grootschalige operaties met uitzonderlijke consistentie uit te voeren. De control plane past zich nu automatisch aan deze operaties aan, terwijl de operationele latenties voorspelbaar blijven. Dit is met name belangrijk voor grote en dynamische applicaties zoals SaaS, noodherstel en fallback, batch-implementaties en testomgevingen, vooral tijdens periodes met hoge churn", aldus Google,

Lees meer details in een blog op de website van Google.

Axians 12/11/2024 t/m 26/11/2024 BN+BW