Aleksei Naumov, Lead AI Engineer bij Terra Quantum – een Europese deeptech-leider met meer dan $100 miljoen aan financiering – deelt zijn reis van academische wortels naar leiderschap in de industrie. Met een graad in natuurkunde aan de Lomonosov Moskou Staatsuniversiteit maakte Aleksei de overstap van universitaire AI-projecten naar een centrale rol in de vooruitgang van AI-technologie.
Aleksei legt uit waarom het energieverbruik van grote taalmodellen (LLM's) een niveau zou kunnen bereiken dat vergelijkbaar is met dat van 160 bedrijven ter grootte van Meta, en hoe modeloptimalisatie dit resultaat kan helpen voorkomen.
Het interview verkent Aleksei's onderzoekservaring, variërend van het optimaliseren van computer vision-modellen tot het presenteren van een baanbrekend project over de compressie van LLM's op een IEEE-conferentie in Californië. Hij biedt een professionele kijk op opkomende AI-trends en de toekomst van AI-optimalisatie in de branche.
Aleksei Kunt u uw reis naar AI delen en wat u in eerste instantie tot deep learning aantrok?
Mijn reis naar deep learning begon tijdens mijn universiteitsjaren. Ik heb een bachelordiploma in natuurkunde behaald aan de Lomonosov Moskou State University (gerangschikt op nummer 37 in de QS World University Rankings by Physics & Astronomy) met een specialisatie in robotica en toegepaste wiskunde. Door deze academische achtergrond heb ik tijdens mijn studie veelvuldig gewerkt met data-analyse en machine learning.
Mijn eerste deep learning-project was mijn bachelorscriptie, waarin ik een algoritme ontwikkelde voor automatische quadcopter-landing met behulp van computervisie.
Na mijn afstuderen kwam ik terecht bij het Zwitserse bedrijf Terra Quantum in een AI-onderzoeksteam. Uiteindelijk leidde ik het team en publiceerden we verschillende onderzoeksprojecten op het gebied van AI-modeloptimalisatie (inclusief LLM's en computervisie) met behulp van tensordecompositie en tensornetwerkmethoden. Ons laatste artikel is onlangs gepubliceerd op de 7e Internationale Conferentie over Multimedia Information Processing and Retrieval (MIPR) van de IEEE 2024, die ik ten zeerste aanbeveel om te lezen.
Momenteel leid ik ook een productontwikkelingsteam dat gespecialiseerd is in grote taalmodellen. Vorig jaar sprak ik over mijn reis in een interview met Michael Perelshtein (PhD in Quantum Physics en directeur technologie) en Artem Melnikov (hoofd toegepast onderzoek): Interviewlink (in het Russisch).
Hoe ziet u, als iemand die gespecialiseerd is in efficiënt deep learning, de toekomst van dit vakgebied evolueren?
Laat me mijn gedachten delen, specifiek met betrekking tot grote taalmodellen (LLM's). Momenteel zijn bedrijven en onderzoekslaboratoria die LLM's ontwikkelen (zoals OpenAI, Meta en Google) in een race om een universeel, grootschalig model te creëren dat zoveel mogelijk kennis en mogelijkheden omvat. Dit stimuleert zeker innovatie, maar ik denk niet dat deze aanpak voor onbepaalde tijd dominant zal blijven.
Stel je een toekomst voor waarin mensen in hun dagelijkse routines werkelijk afhankelijk zijn van grote taalmodellen (LLM's) – waarbij ze deze gebruiken via chatinterfaces, aanbevelingssystemen en meer – waarbij ze, laten we zeggen, 5% van hun tijd besteden aan interactie met deze technologieën. Dit is niet vergezocht. Voor het gebruik van GPT-4 zijn voor deze vraag ongeveer 100 miljoen H100 GPU's nodig. De computationele vraag hiervoor is enorm, vergelijkbaar met de volledige capaciteit van ongeveer 160 bedrijven zoals Meta.
Voor elk verzoek uitsluitend op enorme modellen vertrouwen is niet energiezuinig. Of we nu een LLM vragen om een eenvoudige berekening zoals 2×2 op te lossen of complex onderzoek uit te voeren, we verbruiken voor beide taken een vergelijkbare hoeveelheid middelen (ik ben te simpel, maar dat is het algemene idee). Waarom zoveel energie verbruiken voor eenvoudige taken als kleinere modellen ze aankunnen?
Ik verwacht dat in de loop van de tijd meer LLM-gebruiksscenario's zullen verschuiven naar kleinere, gespecialiseerde modellen. Ik geloof dat deze verschuiving zal plaatsvinden door middel van kennisdestillatie: het overbrengen van kennis van grotere modellen naar kleinere modellen, die vervolgens kunnen worden gebruikt voor specifieke taken zoals copywriting, programmeren of wiskunde.
Op welke innovaties in je carrière tot nu toe ben je het meest trots en welke impact hebben ze gehad op het vakgebied of de projecten waaraan je hebt gewerkt?
Ik ben er trots op dat ik leiding geef aan een sterk team dat gespecialiseerd is in AI en tensornetwerken, en dat ik samenwerk met enkele van de slimste geesten op dit gebied. Er zijn twee projecten waar ik bijzonder trots op ben:
- TQCompressor: We hebben een innovatieve methode ontwikkeld voor het comprimeren van LLM's, waardoor de grootte van GPT-2 met ongeveer 35% wordt verkleind met minimaal gegevensverlies. Bovendien hebben we dankzij verbeteringen in onze trainingsmethode slechts 3% van de oorspronkelijke dataset gebruikt, waardoor we ongeveer 33 keer tijd, geld en middelen hebben bespaard. Om bij te dragen aan AI-onderzoek hebben we het algoritme en het resulterende TQCompressGPT-2-model openbaar gemaakt.
Aleksei presenteert het project “TQCompressor: Improving Tensor Decomposition Methods in Neural Networks via Permutations” op de IEEE MIPR 2024 Conference, San Jose, CA, VS.
- TetraAML: We hebben een uitgebreid raamwerk gecreëerd voor het optimaliseren van computer vision-modellen, waarbij alles wordt aangepakt, van modelontwikkeling tot compressie voor efficiënte implementatie op apparaten met beperkte middelen. Ons algoritme comprimeerde het ResNet-18-model 14,5 keer met minimaal kwaliteitsverlies.
Welke opkomende AI-trends boeien u het meest, en welke rol zou u willen spelen bij het vormgeven van deze gebieden?
Ten eerste ben ik blij dat fundamentele LLM-ontwikkelaars zich steeds meer richten op gebruiksscenario's voor implementatie op apparaten. In een van zijn recente releases introduceerde Meta bijvoorbeeld Llama 3.2-1B en Llama 3.2-3B, specifiek afgestemd op smartphone-implementatie, samen met voorbeeldtoepassingen zoals een mobiele schrijfassistent: Meta Blog over Llama 3.2.
Ten tweede verwacht ik aanzienlijke vooruitgang op het gebied van het genereren van afbeeldingen en video's. Het onlangs uitgebrachte FLUX-model voor het genereren van afbeeldingen heeft ongelooflijke resultaten opgeleverd en veel enthousiasme geoogst binnen de AI-gemeenschap. De release van API's voor videogeneratiemodellen door providers als Runway en Kling zal AI-ontwikkelaars over de hele wereld eindelijk in staat stellen videogeneratiemogelijkheden in hun producten te integreren. Ik verwacht dat deze sector een enorme groei zal doormaken, waarbij nieuwe modellen en producten zullen verschijnen voor toepassingen op terreinen variërend van bioscoop tot consumentenapps en grafisch ontwerp.
Als je je AI over vijf tot tien jaar zou kunnen voorstellen, welke ontwikkelingen of veranderingen zullen volgens jou dan het vakgebied bepalen?
Omdat mijn expertise ligt in efficiënte AI en on-device implementatie, zal ik mij concentreren op mijn visie voor de toekomst op dit gebied.
Ik voorzie de massale acceptatie van LLM's op apparaten en de verschuiving van LLM-gebruiksscenario's van cloud-GPU's naar gebruikersapparaten. Voor gebruikers betekent dit verbeterde gegevensbeveiliging en een volledig geïntegreerde ervaring met hun apparaten, waardoor LLM-mogelijkheden net zo vertrouwd worden als autocorrectie vandaag de dag is. Er zullen echter nog steeds gevallen zijn die cloudgebaseerde verwerking vereisen, hetzij voor bekende toepassingen, hetzij voor nieuwe, nog te ontdekken scenario's.
Ik voorzie ook de opkomst van gespecialiseerde AI-hardware. Dit omvat speciale hardware voor trainingsclusters, GPU-achtige architecturen voor AI-inferentie in de cloud en gespecialiseerde mobiele chips voor AI op het apparaat. Bovendien verwacht ik geoptimaliseerde hardware te zien voor generatieve neurale netwerken die zijn afgestemd op toepassingen voor het genereren van afbeeldingen en video's.