Hans Steeman - 21 juni 2024

Tobiko brengt structuur in de SQL-datastromen

Tyson Mao, medeoprichter en CEO van de Amerikaanse startup Tobiko, is een man met een missie. Het ordenen van SQL-data is de kern daarvan. Gegevens worden in grote hoeveelheid door processen gegenereerd en daarna gerubriceerd om in bijvoorbeeld SQL-databases opgeslagen te worden. De transformatie laag in het proces speelt daarin een belangrijke rol.

Tobiko brengt structuur in de SQL-datastromen image

 Toby Mao: "We hebben SQL Mesh, ons open source framework voor datatransformatie, ontwikkeld omdat we wisten dat er een betere manier was om data voor te bewerken.” Vrij vertaald: Veel ruwe data is ongeordend en met SQL Mesh kunnen wetenschappers en analisten de juiste en efficiënte pipelines definiëren. Tobiko bestaat als virtuele onderneming en heeft zo’n 20 ontwikkelaars die bij dit open source project betrokken zijn. Ze zijn verspreid over USA, Canada, Griekenland en Nieuw-Zeeland. Het zijn veelal ex-werknemers van grote bedrijven zoals Apple, Netflix, Airbnb en Google, alwaar zij in de praktijk de problemen met de data ervaren hebben. Zo legde hij ons uit tijdens de recente IT Press Tour in Californië.

Tyson Mao: “Ontwikkelomgevingen die nu gebruikt worden hebben vaak veel tijd nodig om op gang te komen en zijn mede daardoor duur in gebruik. Mocht er in het proces iets fout gaan dan is het oplossen van de gemaakte fouten ook nog eens complex en tijdrovend. Ook is er een gebrek aan inzicht in de prestaties van de datapijplijn en heeft het beheer van grote datasets zijn eigen complexiteit.”

Data Build Tool

Als we Tobiko goed begrijpen dan is de kern van het probleem dat DBT-projecten niet goed opschalen. Een DBT (Data Build Tool) helpt bij het opbouwen van gegevens, genereert automatisch documentatie en beschrijvingen en documenteert modelafhankelijkheden, model-SQL, bronnen en tests. DBT maakt afstammingsgrafieken van de datapijplijn en heeft tot doel transparantie en zichtbaarheid te bieden in wat de gegevens betekenen, hoe deze zijn geproduceerd en hoe deze in verband staan ​​met de bedrijfslogica.

Tobiko beweert dat het klanten helpt tijd en geld te besparen in het hele proces door slechts één keer tabellen te hoeven bouwen, de opslagkosten daarmee kan reduceren en een hogere productiviteit mogelijk kan maken. Tyson Mao: “Een enkele wijziging in een query kan van invloed zijn op miljarden rijen gegevens en bedrijven geven elk jaar miljoenen uit aan onnodige wijzigingen van het de data in de opslag, ook wanneer slechts een kleine wijziging nodig is.”

SQLMesh kan gratis worden gebruikt, maar het bedrijf heeft zojuist SQLMesh Enterprise gelanceerd, een betaald product dat een volledig beheer platform is. Het informeert gebruikers niet alleen dat er iets mis is gegaan met hun gegevens, maar het vertelt gebruikers ook waarom.

Door: Hans Steeman

Axians 12/11/2024 t/m 26/11/2024 BN+BW