Hans Steeman - 08 februari 2025

MLCommons classificeert AI-systemen

Het ene AI-systeem is het andere niet. Er is behoefte aan een transparante benchmark voor de systemen. MLCommons is een non-profit organisatie waarin 125 partners samenwerken om tot objectieve waarderings criteria te komen. Tijdens de IT Press tour van januari bezocht Dutch IT Channel het MLCommons consortium in San Mateo (Californië) waarbij David Kanter, MLCommons Executive Director, ons uitlegde hoe de MLPerf-benchmarks, die voor meerdere marktsegmenten al ontwikkeld zijn, in elkaar steken.

MLCommons classificeert AI-systemen image

De AI-markt is zeer dynamische met duizelingwekkende ontwikkelingen. David: “We zien dat de modellen die een centraal onderdeel van de huidige AI-toepassingen zijn, elke twee jaar met ongeveer een factor 750 qua prestaties groeien. Dat is aanzienlijk meer dan traditionele hardware verbeteringen. De ontwikkelingen die zich voordoen bij AI zijn al lang voorbijgegaan aan de trends van Moores law.”

De aanpak van MLCommons om te classificeren gaat veel verder dan simpele snelheidstests. Het complete benchmarkingsysteem onderzoekt tal van elementen van het concept. David verwijst in deze toelichting naar:

  • Time-to-train: Hoe snel systemen van data kunnen leren, met strikte kwaliteitsdrempels die gehaald moeten worden?
  • Prestaties van inferentie (statistiek): hoe goed systemen kunnen toepassen wat ze hebben geleerd en gemeten in verschillende scenario's zoals louter query's en batchverwerking?
  • Energie-efficiëntie: essentiële meetgegevens voor datacenters die proberen de prestaties in evenwicht te brengen met de energiekosten
  • Opslagmogelijkheden: cruciaal voor het verwerken van de enorme datasets die moderne AI nodig heeft.

Bij de benchmarking wordt ook gekeken naar:

  • Schaal: Hoe systemen omgaan met toenemende data- en modelgroottes
  • Algoritmen: de efficiëntie van verschillende AI-uitdagingen
  • Chiptechnologie: prestaties op chipniveau
  • Software: framework en implementatie-efficiëntie
  • Architectuur: algehele effectiviteit van het ontwerp.

Ook de energie-efficiëntie van het systeem is een belangrijk aandachtspunt geworden. De laatste versie van MLPerf Training omvat de eerste datacenter-scale full-system power measurement-methodologie van de industrie, toepasbaar op zowel on-premises als cloudomgevingen. Aanbieders leveren nu energie verbruiks resultaten samen met prestatiegegevens, een resultaat dat een verschuiving markeert naar duurzamere AI-ontwikkeling.

MLPerf genereert dus een brede rapportage over een concept. Bij de benchmarking ontstaat een uitgebreidere rapportage van de oplossing. Fabrikanten gebruiken die om hun product aan te biedne. Een interessante recente ontwikkeling is de explosie van generatieve AI-benchmarking. De laatste MLPerf-trainingsronde zag een toename van meer dan 40% in inzendingen voor GPT3-, Stable Diffusion- en Llama 2-modellen. Een waardevol gegeven wanneer gebruikers keuzes moeten maken. De echte kracht van MLCommons ligt overigens in de community-aanpak. Door concurrenten samen te brengen om het eens te worden over meetnormen, wordt de hele markt vooruitgeholpen en krijgen zowel leveranciers als klanten de hulpmiddelen die ze nodig hebben om beter geïnformeerd beslissingen te nemen.

Axians 06/02/2025 t/m 13/02/2025 BN + BW Bechtle Gold awards 03/02/2025 t/m 10/02/2025 BN + BW
Axians 06/02/2025 t/m 13/02/2025 BN + BW