Redactie - 25 juni 2022

Is synthetische data de toekomst van AI?

Is synthetische data de toekomst van AI? image

Synthetische gegevens worden vaak behandeld als een substituut van lagere kwaliteit en worden gebruikt wanneer echte gegevens lastig te verkrijgen, duur of beperkt door regelgeving zijn. Deze reactie mist echter het ware potentieel van synthetische gegevens. Gartner schat dat in 2030 synthetische data de echte data in AI-modellen volledig zullen overschaduwen. Gartner-analisten zullen use cases en het vooruitzicht van synthetische data bespreken tijdens de komende Gartner Data & Analytics Summits , die regionaal plaatsvinden van augustus tot november.  We spraken met Alexander Linden, VP Analyst bij Gartner, om de belofte van synthetische data te begrijpen en waarom dit van het grootste belang is voor de toekomst van AI.

V: Wat is de belofte van synthetische gegevens en wanneer deze te gebruiken?

A: Synthetische gegevens zijn een klasse gegevens die kunstmatig worden gegenereerd. Het staat in contrast met echte gegevens die rechtstreeks vanuit de echte wereld worden waargenomen. Hoewel echte data bijna altijd de beste bron van inzichten uit data is, zijn echte data vaak duur, onevenwichtig, niet beschikbaar of onbruikbaar vanwege privacyregelgeving. Synthetische gegevens kunnen een effectieve aanvulling of alternatief zijn voor echte gegevens, en bieden toegang tot beter geannoteerde gegevens om nauwkeurige, uitbreidbare AI-modellen te bouwen. In combinatie met echte data creëren synthetische data een verbeterde dataset die vaak de zwakke punten van de echte data kan verminderen.

Organisaties kunnen synthetische data gebruiken om een nieuw systeem te testen waar geen live data bestaat of wanneer data bevooroordeeld is. Ze kunnen ook profiteren van synthetische data als aanvulling op kleine, bestaande datasets die momenteel worden genegeerd. Als alternatief kiezen ze voor synthetische gegevens wanneer echte gegevens niet kunnen worden gebruikt, niet kunnen worden gedeeld of niet kunnen worden verplaatst. In die zin is synthetische data een andere AI-enabler.

V: Waarom is synthetische data een must-have en essentieel voor de toekomst van AI?

A: Er zijn veel andere vormen van synthetische gegevens, zoals gegevensvergroting of pseudomisering/anonimisering, die andere vormen van "gegevenssynthese" zijn. Die methoden zijn een must-have in elk modern data science-team. Maar met synthetische gegevens injecteren professionals informatie in hun AI-modellen en verkrijgen ze kunstmatig gegenereerde gegevens die waardevoller zijn dan directe observatie. 

Synthetische data kunnen worden gebruikt voor hackathons, productdemo's en interne prototyping om een set data te repliceren met de juiste statistische attributen. Banken en financiële dienstverleners gebruiken bijvoorbeeld synthetische data door multi-agent simulaties op te zetten om marktgedrag (zoals pensioeninvesteringen en leningen) te onderzoeken, om betere kredietbeslissingen te nemen of om financiële fraude te bestrijden. Retailers gebruiken synthetische data voor autonome kassasystemen, kassaloze winkels of analyse van demografische gegevens van klanten.

Bovendien kunnen synthetische data de nauwkeurigheid van machine learning-modellen vergroten. Gegevens uit de echte wereld zijn toeval en bevatten niet alle permutaties van omstandigheden of gebeurtenissen die in de echte wereld mogelijk zijn. Synthetische gegevens kunnen dit tegengaan door gegevens aan de randen te genereren, of voor nog niet waargenomen omstandigheden. 

De breedte van de toepasbaarheid maakt het een cruciale versneller voor AI. Synthetische gegevens maken AI mogelijk waar een gebrek aan gegevens AI onbruikbaar maakt vanwege vooringenomenheid of het onvermogen om zeldzame of ongekende scenario's te herkennen.

V: Wat zijn de risico's van synthetische gegevens?

A: Hoewel synthetische datatechnieken behoorlijk hoog kunnen scoren op kosteneffectiviteit en privacy, hebben ze aanzienlijke risico's en beperkingen. De kwaliteit van synthetische data hangt vaak af van de kwaliteit van het model waarmee ze zijn gemaakt en de ontwikkelde dataset. 

Het gebruik van synthetische gegevens vereist aanvullende verificatiestappen, zoals de vergelijking van modelresultaten met door mensen geannoteerde, real-world gegevens, om de betrouwbaarheid van de resultaten te garanderen. Bovendien kunnen synthetische gegevens misleidend zijn en tot inferieure resultaten leiden, en zijn synthetische gegevens mogelijk niet 100% faalveilig als het om privacy gaat.

Vanwege deze technologische uitdagingen kan scepsis van gebruikers ook een andere moeilijke uitdaging zijn voor synthetische gegevens om te overwinnen, omdat gebruikers het als 'inferieure' of 'nep'-gegevens kunnen beschouwen.

Ten slotte kunnen bedrijfsleiders, naarmate synthetische gegevens een bredere acceptatie krijgen, vragen stellen over de openheid van de technieken voor het genereren van gegevens, vooral als het gaat om transparantie en verklaarbaarheid.  

Gartner Data & Analytics Summit

Gartner-analisten zullen aanvullende analyses geven over de toekomst van synthetische data tijdens de Gartner Data & Analytics Summits 2022, die plaatsvinden van 22-24 augustus in Orlando, FL. , 14-16 september in Tokio , 19-20 september in Mumbai en 7-8 november in Sydney . Volg nieuws en updates van de conferenties op Twitter met #GartnerDA .

Gartner-klanten kunnen meer informatie vinden in het rapport Emerging Technologies: When and How to Use Synthetic DataLeer hoe u de belangrijkste D&A-vaardigheden en -mogelijkheden kunt ontgrendelen die nodig zijn voor datagedreven succes in het gratis Gartner e-boek Essential Guide to D&A Skills and Capabilities.

Outpost24 17/12/2024 t/m 31/12/2024 BN + BW