Redactie - 05 februari 2025

Omdia legt DeepSeek onder de microscoop: een gezondheidscheck

De prestaties van de Chinese ontwikkelaar DeepSeek met zijn V3 en R1 AI-modellen hebben schokgolven door de industrie gestuurd, wat suggereert dat high performance-modellen kunnen worden ontwikkeld en getraind zonder toegang tot high-end GPU's - en tegen veel lagere kosten dan veel van de toonaangevende basismodellen die de markt domineren. Dit heeft een storm van commentaar en media-aandacht veroorzaakt, waarvan een groot deel overdreven, verwarrend en misleidend is. Deze blog, geschreven door Eden Zoller, Bradley Shimmin, Lian Jye Su en Alexander Harrowell, is gebaseerd op een uitgebreide analyse ( DeepSeek Sanity Check ) die door de hype heen snijdt om een evenwichtig perspectief te presenteren van DeepSeek en wat zijn acties betekenen voor de AI-industrie en ondernemingen.

Ai Artificial intelligence

Omdia legt DeepSeek onder de microscoop: een gezondheidscheck image

De evolutie van DeepSeek zag de industrie niet aankomen

DeepSeek heeft de afgelopen jaren gestaag zijn familie van open-source modellen uitgebracht en zijn innovaties zijn niet alleen gebaseerd op nieuwe technologische doorbraken die in werkelijkheid zeer zeldzaam zijn. De DeepSeek R1-familie van redeneermodellen maakt gebruik van bestaande open-source modellen, waaronder zijn eigen V3, Meta's Llama en Alibaba's Qwen. Wat het getalenteerde DeepSeek-team heeft gedaan, is modelontwikkeling benaderen op manieren die creatief, flexibel en zeer effectief zijn. DeepSeek-R1 is getraind op grootschalige reinforcement learning zonder supervised fine-tuning, met inbegrip van multi-stage training en cold-start data. Dit impliceert dat DeepSeek-R1 nog minder middelen nodig heeft, wat de opwinding rond zijn redeneer- en inferentieprestaties verklaart. Volgens DeepSeek verslaat R1 OpenAI o1 op de benchmarks AIME, MATH-500 en SWE-bench Verified.

De komst van DeepSeek-V3 en R1 wordt gezien als een game changer, maar het spel is de afgelopen jaren geleidelijk veranderd: de verschuiving van zeer grote, gepatenteerde, algemene modellen naar kleine, taakspecifieke, open-source modellen. Functies die in grote modellen als grensniveau werden beschouwd, zoals multimodaliteit, verschijnen nu in het bereik van 3B–8B, terwijl basis-LLM-functionaliteit groeit in het bereik van 1–3B. De komst van kleinere, kosteneffectieve open modellen breidt AI-innovatie en -concurrentie uit in termen van wie het aanstuurt en de vormen die het kan aannemen, wat goed nieuws is voor ontwikkelaars en ondernemingen. Kleine modellen zijn met name gunstig voor innovatie op edge-apparaten zoals smartphones, pc's, auto's en robotica. Bepaalde versies van DeepSeek-modellen (bijv. DeepSeek-R1-Distill) kunnen lokaal worden gehost, wat aantrekkelijk is voor organisaties die prioriteit geven aan gegevensprivacy en leveranciers die zich richten op edge AI-toepassingen die een ultralage latentie vereisen.

DeepSeek-gegevensprivacy in perspectief

Het nieuws over DeepSeeks prestaties heeft de geopolitieke gevoeligheden over datatoegang en -exploitatie aangewakkerd, met name in de VS. Geopolitiek terzijde, bedrijven die interacteren met DeepSeeks gehoste AI-services stellen zich op het eerste gezicht bloot aan potentieel verlies van dataprivacy. Maar dit is het geval met alle cloudgebaseerde AI-services, en het enige noemenswaardige verschil tussen AI-services van Apple, Meta, ByteDance en DeepSeek ligt in wie toegang krijgt tot hoeveel waardevolle data: de AI-serviceprovider, advertentiedatabrokers of zelfs overheidsinstanties. Het is daarom aan de IT-afdeling van het bedrijf om de toegang tot populaire GenAI-modellen te controleren, door gebruikers intern gecontroleerde opties te bieden die goed genoeg zijn om gebruikers ervan te weerhouden het heft in eigen handen te nemen (bijvoorbeeld shadow IT). DeepSeek is beschikbaar onder een gratis open-source softwarelicentiemodel, wat belangrijk is omdat het bedrijven in staat stelt hun data te beschermen bij het gebruik van opkomende AI-services. Dankzij opensourcesoftware kunnen bedrijven derivaten van DeepSeek-R1 bouwen en deze zelf hosten, zonder dat DeepSeek hierbij betrokken is, afgezien van het verstrekken van bronvermelding.

DeepSeek zal de opmars van grote modellen niet stoppen

De financiële markten reageerden fel op DeepSeek-V3 en R1, en beschouwden deze modellen als serieuze uitdagers van de dominante basismodellen van leveranciers als OpenAI. Er kwamen ook zorgen naar boven dat DeepSeek's modelleringstechnieken (met goedkopere, minder krachtige GPU's) een negatieve impact zouden hebben op de vraag op lange termijn naar rekenintensieve AI-chipsets en hyperscale datacenters.

Hoewel DeepSeek's prestaties suggereren dat het pad voor AI-ontwikkeling dat door OpenAI en anderen is uitgezet niet de enige weg vooruit is, betekent dit niet het einde van grootschalige funderingsmodellen die high-end AI-chipsets en toegang tot krachtige datacenterinfrastructuur vereisen. Of je het nu leuk vindt of niet, er zal nog steeds behoefte zijn aan grootschalige funderingsmodellen. Hoewel kleinschaligere modellen zoals DeepSeek-V3 het erg goed doen in specifieke domeinen, missen ze mogelijk de breedspectrum veelzijdigheid van grote modellen zoals GPT-4 of Claude 3.5, en dit helpt de vraag naar de grotere modellen in stand te houden.

Bovendien zijn er te veel machtige gevestigde belangen die frontier AI en de infrastructuurinvesteringen die dit ondersteunen, aansturen, met name in de VS waar Microsoft, OpenAI, Google, Amazon en Anthropic zich inzetten voor AGI. Het Stargate Project van de nieuwe Amerikaanse regering van $ 500 miljard, gericht op het vestigen van wereldwijde AI-dominantie in de VS, omvat financiële steun van OpenAI en technologische ondersteuning van Oracle, Microsoft en NVIDIA (onder andere).

DeepSeek heeft de race om AI-suprematie niet op zijn kop gezet

Er zijn beweringen dat DeepSeek's prestaties de race om AI-suprematie tussen de VS en China hebben beëindigd. De VS is de thuisbasis van de meeste van 's werelds toonaangevende AI-bedrijven. Het heeft ook verboden opgelegd op de export van high-end GPU's naar China om het vermogen van dat land om te concurreren in de AI-race te verzwakken. In deze context is DeepSeeks vermogen om high-performance modellen te produceren met behulp van GPU's met lagere specificaties indrukwekkend. Verder suggereert het dat het Amerikaanse exportverbod eerder heeft gefungeerd als een innovatiemotor dan dat het innovatie heeft gehinderd. Maar dit betekent niet dat DeepSeek de AI-race heeft gestopt of China een definitieve voorsprong heeft gegeven. AI-innovatie is zeer dynamisch. Zodra een grote doorbraak wordt aangekondigd, vinden rivalen manieren om deze te integreren om verdere innovatie te stimuleren.

Hoewel DeepSeek de race om AI-suprematie misschien niet heeft beëindigd, zal het hopelijk AI-belanghebbenden aanmoedigen om te heroverwegen wat AI-suprematie betekent. Een belangrijke reflectie is dat innovatie niet afhankelijk is van brute kracht, grootschalige modellen en gemakkelijke toegang tot krachtige, dure computerinfrastructuur. DeepSeek heeft aangetoond dat wendbaarheid, creativiteit en het vermogen om out-of-the-box te denken innovatie kunnen stimuleren. De komst van DeepSeek zou AI-leiders er ook toe moeten aanzetten om de kernveronderstellingen die achter de noties van AI-suprematie schuilgaan, in twijfel te trekken: dat het uitval veroorzaakt en negatieve gevolgen heeft, vooral wanneer het verantwoorde AI ondermijnt door in te leveren op veiligheid en gelijkheid in de race om vooruit te komen.

Deze blog, geschreven door Eden Zoller, Bradley Shimmin, Lian Jye Su en Alexander Harrowell, is gebaseerd op een uitgebreide analyse ( DeepSeek Sanity Check ) die door de hype heen snijdt om een evenwichtig perspectief te presenteren van DeepSeek en wat zijn acties betekenen voor de AI-industrie en ondernemingen.

Tip de redactie