Analysebureau: DeepSeek gaf meer dan half miljard dollar uit aan AI-hardware
Het Chinese DeepSeek zette onlangs de AI-wereld op zijn kop. Het claimde een AI-model te hebben ontwikkeld dat net zo goed presteert als concurrenten, terwijl de ontwikkeling een fractie van het geld zou hebben gekost. In een analyse stelt analysebureau SemiAnalysis echter dat deze kosten in werkelijkheid veel hoger lagen. Het schat onder meer dat DeepSeek meer dan een half miljard dollar heeft geïnvesteerd in AI-hardware voor het trainen van zijn R1-taalmodel.
DeepSeek claimt dat het trainen van zijn AI-model ongeveer 6 miljoen dollar heeft gekost. In de analyse stelt SemiAnalysis echter dat DeepSeek hiermee slechts een deel van het kostenplaatje belicht, namelijk alleen de pretrainingsfase. Dit is volgens het analysebureau echter niet representatief voor de kosten die het bedrijf werkelijk heeft gemaakt voor het ontwikkelen van zijn R1-taalmodel.
"Wij geloven dat het pre-trainingsnummer niet in de buurt komt van het daadwerkelijke bedrag dat aan het model is uitgegeven. We zijn ervan overtuigd dat hun hardware-uitgaven ruim boven de $ 500 miljoen liggen in de geschiedenis van het bedrijf. Om nieuwe architecturale innovaties te ontwikkelen, is er tijdens de modelontwikkeling een aanzienlijke uitgaven aan het testen van nieuwe ideeën, nieuwe architectuurideeën en ablaties. Multi-Head Latent Attention, een belangrijke innovatie van DeepSeek, nam meerdere maanden in beslag om te ontwikkelen en kostte een heel team aan manuren en GPU-uren", aldus SemiAnalysis.
'Slechts een deel van de totale kosten'
"De $6M kosten in het artikel worden toegeschreven aan alleen de GPU kosten van de pre-training run, wat slechts een deel is van de totale kosten van het model. Uitgesloten zijn belangrijke puzzelstukjes zoals R&D en TCO van de hardware zelf . Ter referentie, Claude 3.5 Sonnet kostte $10s van miljoenen om te trainen, en als dat de totale kosten waren die Anthropic nodig had, dan zouden ze geen miljarden van Google en tientallen miljarden van Amazon ophalen. Dat komt omdat ze moeten experimenteren, met nieuwe architecturen, gegevens verzamelen en opschonen, werknemers betalen en nog veel meer."
Ook wijst SemiAnalysis op de snelle ontwikkeling van AI, waardoor steeds minder rekenkracht nodig is voor het realiseren van dezelfde resultaten. "Schattingen geven aan dat algoritmische vooruitgang ongeveer een factor 4 per jaar bedraagt. Dit betekent dat er elk jaar 4 keer minder rekenkracht nodig is om dezelfde prestaties te bereiken. Dario, de CEO van Anthropic, stelt dat deze vooruitgang zelfs sneller gaat en een verbetering van een factor 10 kan opleveren. Wat betreft de kosten voor inferentie bij GPT-3-kwaliteit, zijn deze inmiddels 1200 keer lager geworden", aldus SemiAnalysis.
Meer informatie is hier te vinden.