Redactie - 27 juli 2024

Snowflake en Meta bundelen krachten rond flagship model-familie in Snowflake Cortex AI

Het AI-onderzoeksteam van Snowflake lanceert in samenwerking met de open source gemeenschap een Massive LLM Inference and Fine-Tuning System Stack. Dit is een nieuwe oplossing voor open source inferentie- en fine-tuningsystemen voor modellen met meerdere honderden miljarden parameters, zoals Llama 3.1 405B.

Artificial intelligence Open source

Snowflake en Meta bundelen krachten rond flagship model-familie in Snowflake Cortex AI image

Snowflake kondigt aan dat het de Llama 3.1-collectie van meertalige open source Large Language Models (LLM's) gaat hosten in Snowflake Cortex AI voor enterprises om krachtige AI-toepassingen op schaal te kunnen bouwen. Dit aanbod omvat Meta's grootste open source LLM Llama 3.1 405B, waarbij Snowflake de inferentiesysteem-stack ontwikkelt en open source maakt.

Geoptimaliseerd voor inferentie en fine-tuning

Het AI-onderzoeksteam van Snowflake heeft Llama 3.1 405B geoptimaliseerd voor zowel inferentie als fine-tuning. Het ondersteunt een 128K contextvenster en maakt real-time inferentie mogelijk met tot 3x lagere end-to-end latentie en 1,4x hogere doorvoer dan bij bestaande open source-oplossingen. Fine-tuning op het massieve model is mogelijk met één GPU-node, wat de kosten en complexiteit terugdringt.

“Snowflake's AI Research Team laat zien hoe bedrijven en de open source-gemeenschap gebruik kunnen maken van state-of-the-art open modellen zoals Llama 3.1 405B voor inferentie en fine-tuning op een manier die de efficiëntie maximaliseert”, zegt Vivek Raghunathan, VP AI Engineering, Snowflake. "We brengen de geavanceerde modellen van Meta niet alleen rechtstreeks naar onze klanten via Snowflake Cortex AI. We wapenen bedrijven en de AI-gemeenschap met nieuw onderzoek en open source code die 128K onder meer contextvensters, multi-node inferentie, pipeline-parallellismeen 8-bit floating point quantizationondersteunt om AI voor het bredere ecosysteem te bevorderen."

Massive LLM Inference and Fine-Tuning System Optimization Stack

Tegelijk met de lancering van Llama 3.1 405B is het AI-onderzoeksteam van Snowflake nu bezig met het open source maken van zijn Massive LLM Inference and Fine-Tuning System Optimization Stack. Het werkt daarbij samen met DeepSpeed, Hugging Face, vLLM en de bredere AI-gemeenschap.

De grote schaal van het model en de geheugenvereisten vormen aanzienlijke uitdagingen voor gebruikers die streven naar inferentie met lage latentie voor realtime gebruikssituaties, een hoge verwerkingscapaciteit voor kosteneffectiviteit en ondersteuning van lange contexten voor verschillende generatieve AI-use cases op enterprise-niveau. De geheugenvereisten voor het opslaan van model- en activeringstoestanden maken fine-tuning eveneens uitdagend, waarbij de grote GPU-clusters die nodig zijn om de modeltoestanden in te passen voor training vaak onbereikbaar zijn voor datawetenschappers.

Met Massive LLM Inference and Fine-Tuning System Optimization Stack helpt Snowflake gebruikers hierbij. Door gebruik te maken van parallelliteitstechnieken en geheugenoptimalisaties maakt het snelle en efficiënte AI-verwerking mogelijk, zonder complexe en dure infrastructuur. Voor Llama 3.1 405B levert Snowflake's systeemstack realtime, hoge doorvoerprestaties op slechts één GPU-node en ondersteunt het enorme 128k contextvensters in multi-node setups. Deze flexibiliteit geldt zowel voor next-generation als legacy hardware, waardoor het toegankelijk is voor een breder scala aan bedrijven. Bovendien kunnen datawetenschappers Llama 3.1 405B verfijnen met gemengde precisietechnieken op minder GPU's, waardoor er geen grote GPU-clusters nodig zijn. Als gevolg hiervan kunnen organisaties krachtige generatieve AI-toepassingen op bedrijfsniveau eenvoudig, efficiënt en veilig aanpassen en implementeren.

Het AI-onderzoeksteam van Snowflake heeft ook een geoptimaliseerde infrastructuur ontwikkeld voor fine-tuninginclusief modeldistillatie, veiligheidsrails, retrieval augmented generation (RAG) en synthetische datageneratie, zodat bedrijven eenvoudig aan de slag kunnen met deze use cases binnen Cortex AI.

Verantwoorde AI

Ook maakt het bedrijf Snowflake Cortex Guard algemeen beschikbaar. Deze technologie beschermt tegen schadelijke inhoud voor elke LLM-applicatie of -asset die is gebouwd in Cortex AI - met behulp van de nieuwste modellen van Meta of de LLM's die beschikbaar zijn van leveranciers als AI21 Labs, Google, Mistral AI, Reka en Snowflake zelf.

Cortex Guard maakt gebruik van Meta's Llama Guard 2, waarmee vertrouwde AI verder wordt ontsloten voor bedrijven, zodat ze er zeker van kunnen zijn dat de modellen die ze gebruiken veilig zijn.

'Praten met onze data'

"Als leider in de horeca vertrouwen we op generatieve AI om belangrijke onderwerpen binnen ons Voice of the Customer-platform diepgaand te begrijpen en te kwantificeren. Toegang krijgen tot Meta's toonaangevende Llama-modellen binnen Snowflake Cortex AI stelt ons in staat om verder te praten met onze data en de inzichten te vergaren die we nodig hebben om de naald te verplaatsen voor ons bedrijf,” zegt Dave Lindley, Sr. Director of Data Products, E15 Group. “We kijken ernaar uit om Llama verder af te stemmen en te testen om realtime actie te ondernemen op basis van live feedback van onze gasten.”

“Veiligheid en vertrouwen zijn een zakelijke vereiste als het gaat om het inzetten van generatieve AI, en Snowflake biedt ons de zekerheid die we nodig hebben om te innoveren en toonaangevende Large Language Models op schaal te gebruiken,” zegt Ryan Klapper, een AI-leider bij Hakkoda. "De krachtige combinatie van Meta's Llama-modellen binnen Snowflake Cortex AI ontsluit nog meer mogelijkheden voor ons om interne RAG-gebaseerde applicaties te bedienen. Deze toepassingen stellen onze stakeholders in staat om naadloos te communiceren met uitgebreide interne kennisbanken, zodat ze altijd toegang hebben tot accurate en relevante informatie."

'Toegang geven tot de nieuwste open source LLM's'

“Door gebruik te maken van Meta's Llama-modellen binnen Snowflake Cortex AI, geven we onze klanten toegang tot de nieuwste open source LLM's,” zegt Matthew Scullion, CEO en medeoprichter van Matillion. "De aanstaande toevoeging van Llama 3.1 geeft ons team en gebruikers nog meer keuze en flexibiliteit om toegang te krijgen tot de grote taalmodellen die het beste passen bij use cases, en om op het snijvlak van AI-innovatie te blijven. Llama 3.1 binnen Snowflake Cortex AI zal direct beschikbaar zijn met Matillion op de lanceringsdag van Snowflake.”

“Als leider in de customer engagement en customer data platform-industrie, hebben de klanten van Twilio toegang nodig tot de juiste data om de juiste boodschap te creëren voor het juiste publiek op het juiste moment,” zegt Kevin Niparko VP, Product and Technology Strategy, Twilio Segment. "De mogelijkheid om het juiste model voor hun use case te kiezen binnen Snowflake Cortex AI stelt onze gezamenlijke klanten in staat om AI-gedreven, intelligente inzichten te genereren en deze eenvoudig te activeren in downstream tools. In een tijdperk van snelle evolutie moeten bedrijven snel itereren op verenigde datasets om de beste resultaten te behalen."

Tip de redactie

Sophos Cybersecurity on Tour 11-02-2025 BW