– Gode nyheter for Norge

3 months ago 21


Deepseek har brukt fire smarte teknikker, ifølge direktøren for Norges største AI-senter. Men han vil ikke kalle det en revolusjon.

 Forskningssenteret NorwAI har hovedkontor ved universitetet NTNU i Trondheim. Foto: Gorm Kallestad / NTB

Publisert: Publisert:

Nå nettopp

Kortversjonen

NTNU-professor Jon Atle Gulla er direktør for Norges største forskningssenter for kunstig intelligens, NorwAI.

Senteret lager blant annet norske språkmodeller til kommersiell bruk, og har 11 store selskaper på partnersiden, inkludert DNB, Kongsberg, Schibsted, Telenor og Statnett.

Gulla mener fremskrittene til kinesiske Deepseek, som rystet amerikanske tek-aksjer forrige uke, er positive for AI-sektoren her hjemme.

– Dette er gode nyheter for Norge. Vi kan bruke innsikten til å bygge egne modeller, og vi kan også bygge gode modeller på toppen av Deepseek, sier Gulla til E24.

Les på E24+

Et lite tek-lys er tent i Europa

– Hvis en bygger videre på Deepseek, må en imidlertid være klar over at vi ikke kjenner treningsdataene eller hvilke mekanismer de har lagt inn for å filtrere eller sensurere output.

– Ikke det kvantespranget

Deepseek skal ha utviklet en AI-modell som er både billigere og bedre enn ChatGPT fra OpenAI. Det reiser spørsmål rundt de enorme summene tek-gigantene investerer, og verdsettelsen av tek-aksjer med skyhøye forventninger.

Men det er ingen revolusjon, ifølge professoren.

– Vi ser ikke det kvantespranget som noen snakker om. Men Deepseek har tatt noen velkjente teknikker, og forbedret dem inkrementelt, gjort små modifikasjoner, og brukt dem i kombinasjon. De har vært kreative, men hver enkelt teknikk er relativt godt forstått fra før.

 Jon Atle Gulla er direktør ved forskningssenteret NorwAI og professor ved Institutt for datateknologi og informatikk på NTNU. Foto: Kai. T. Dragland / NTNU

– Det er spennende fra et vitenskapelig perspektiv at kombinasjonen av ulike teknikker kan ha stor påvirkning. At vi får flere AI-modeller til en lavere pris vil skape et større marked. Det kan være positivt for Nvidia, sier Gulla.

Fire smarte teknikker

Gulla trekker frem fire teknikker Deepseek har brukt for å gjøre modellene sin billigere og mer effektiv:

  1. Oppdeling av modellen: Deepseek har delt opp sin AI-modell i mindre modeller, som kan kjøres på en koordinert måte. Denne tilnærmingen, kalt «Mixture of Experts», gjør modellen mer effektiv og billigere fordi du kun må aktivere den delen av modellen du trenger.
  2. Trening av resonnering: OpenAI har trent opp sine modeller til å resonnere ved hjelp av massive datasett. Deretter har de brukt forsterkningslæring («Reinforcement Learning»), der mennesker sorterer gode og dårlige svar, for å forbedre modellen. Deepseek har imidlertid brukt forsterkningslæring i det første steget, for å lære modellen å resonnere, noe som er langt billigere.
  3. Et lite veiledet datasett: For å få modellen til å komme i gang med å resonnere i starten, har Deepseek brukt et lite, veiledet datasett til å forklare stegene. Det fungerer litt som et billig veikart, heller enn å pøse på med store mengder data.
  4. Destillering av modellen: Etter at Deepseek klarte å lage en stor god modell med resonneringsevne, R1, har de fått den til å trene opp andre, mindre modeller for spesifikke formål. De mindre avleggerne fungerer såpass godt at de kan brukes lokalt på egen PC og åpner for helt andre bruksområder.

– Har tenkt på en annen måte

TIl nå har forskerne trodd at større datamengder og mer datakraft har vært veien til gode AI-modeller.

– Dette viser at algoritmiske forbedringer kan ha større påvirkning, noe som åpner nye muligheter. Man kan lage mindre modeller som kjøres lokalt som er nesten like gode, uten å frykte at forretningskritisk informasjon havner på en server i Silicon Valley eller i Kina, sier Gulla.

– Det er veldig bra at Deepseek er open source fordi vi kan se akkurat hva de har gjort. Det har vært mye hemmelighetskremmeri fra OpenAI og Google de siste årene.

– Kan vi stole på hva som ligger i de oppgitte kostnadene på 6 millioner dollar? Og hvor mange Nvidia-chips de egentlig har til rådighet?

– Det er vanskelig å si. Vi vet ikke hvilke data de har trent på, noe som også gjelder for amerikanske OpenAI og franske Mistral, eller hvor mange GPU-timer det har kostet.

– Men påstandene virker ikke helt urimelige. Jeg er ikke overrasket hvis tallene er korrekte. Deepseek har tenkt på en annen måte. Vi vet ennå ikke akkurat hvor god modellen er, før vi får testet den skikkelig i randsonen.

Read Entire Article