Dette var umulig for kort tid siden

1 month ago 37

Seks fingre, uleselig tekst og unaturlig glatt hud.

Selv om KI-genererte bilder lenge har sett ganske bra ut, har de hittil slitt med å lage bilder av mennesker, som ser ekte og usminka ut.

Modellene har ikke helt fått til det som for oss mennesker er helt åpenbart.

Og de rare feilene den har gjort, har hjulpet for å vurdere om et bilde er laget med kunstig intelligens eller ikke.

Nå kan det se ut til at den tida er forbi.

Dette bildet er KI-generert av Donald Trump med Grønland i bakgrunnen. Det er ikke et ekte bilde og er laget for å illustrere hva som er mulig i språkmodeller.

Tidligere denne uka lanserte ChatGPT en ny oppdatering. Den er langt bedre på å generere realistiske bilder enn tidligere.

– Det er spinnvilt. Dette er et helt nytt nivå, sier Anders Eidesvik.

Han er KI-rådgiver i tankesmien Langsikt og har lekt mye med å teste forskjellige bildetjenester.

– Denne gjorde at jeg satt kaffen i halsen, sier han.

Anders Eidesvik, KI-rådgiver i tankesmien Langsikt

Derfor var vinglasset så vanskelig

Det er ikke helt uten grunn at språkmodellene tidligere ikke har fiksa å generere enkle ting.

Avisen Forbes kaller det for vinglass-problemet:

Siden KI-modellen er trent på bilder av vinglass som oftest er delvis fulle, klarte den ikke å forestille seg et glass som var helt fullt.

Uansett hvor mye brukerne insisterte og ba ChatGPT om å fylle på mer vin i glasset, ville det neppe blitt fylt opp mer enn halvveis.

Det er fordi modellene manglet evnen til å abstrahere konsepter som væskenivå, utover hva de hadde sett og lest seg til i treningsdataene, skriver Forbes. De fleste bilder på nett av vin i vinglass er nemlig ikke helt fulle.

Nå tyder det på at OpenAI har knekt koden. Vi måtte teste.

Først ba vi den om å generere et fullt glass med vin.

Det fikk den ikke til, bildet vi fikk var fylt med omtrent så mye vin som er vanlig å servere.

Et KI-generert bilde av et vinglass som er helt fullt.

Men med litt mer drahjelp fikk roboten det til.

Etter å ha presisert med store bokstaver at vi ønsket «et HELT fullt glass» fikk vi nettopp det.

Og dermed er KI-modellene nå i stand til å lage bilder, også av mennesker, som ser langt mer realistisk ut enn før. Å vite hvordan man skal kjenne igjen et KI-generert bilde, er vanskeligere enn noen gang.

– Tidligere baserte man seg på å gjenskape bilder fra de historiske bildene. På mange måter lagde man en tilfeldig støy på toppen av eksisterende bilder, sånn at man genererte nye bilder som lignet på de forrige, sier KI-professor ved Universitetet i Agder, Morten Goodwin.

Nå er språkanalysen som lenge har vært i ChatGPT koblet til bildebehandlingen, forklarer Goodwin.

– Prikk for prikk, piksel for piksel, nøyaktig det som skal være i bildet. Det ligner veldig på hvis man ber ChatGPT skrive en historie, eller skrive en konfirmasjonstale, så kommer det ord for ord.

– Nå gjør den akkurat det samme. Nå kommer det prikk for prikk. Da kan man generere nær sagt hva man vil, og ikke bare vinglass som er fulle, men om politikere som gjør ting de kanskje ikke burde gjort, sier Goodwin.

Skremmende realistisk

ChatGPT har heller ikke lenger noe problem med å generere bilder av kjente personer, som for eksempel Trump og Putin.

Tidligere har modellen hatt begrensninger for dette.

Andre språkmodeller, som for eksempel Elon Musk sin Grok, har ikke hatt disse begrensningene. Nå har OpenAI tilsynelatende tatt samme grep.

– Det går bort fra det folk vil oppfatte som etisk forsvarlig, og inn i det ekstreme som vi nå ser. Bekymringen min er jo at dette blir verre, sier digitaletiker Leonora Bergsjø.

Hun forsker på etisk og forsvarlig bruk av KI-systemer ved Høgskolen i Østfold. Den nyeste utviklingen stiller større krav til oss forbrukere, mener hun.

– Det utfordrer oss på nye måter. Når vi ikke bare med et enkelt blikk kan se at her er det generert. Men hvor vi nå må begynne å stille det spørsmålet til alle bilder, sier Bergsjø.

Bilder virker sterkere på oss enn tekst, påpeker hun.

– De brenner seg inn. Det er vanskelig å glemme bilder. Når man først har sett et bilde av Trump, som kysser Putin, så sitter det på netthinnen på en annen måte enn en tekst som man finner ut etterpå at var fake news, sier Bergsjø.

Bildet er KI-generert. Det er bilde av fire gutter.

Utviklingen kan føre til at vi blir mer kritiske til det vi ser, tror hun.

– Det er jo masse historiske eksempler på hvordan vi har blitt lurt av bilder som er falske. Det kan være en sunn kritisk sans å tro mindre på bilder.

Hun oppfordrer folk til å stoppe opp og tenke seg om før man deler bilder man ser på sosiale medier.

– Noe av problemet er at vi er veldig raske med å spre, og hvis noe falskt sprer seg veldig fort, og en venn sier «se her», så får det bildet mer liv enn det fortjener.

– Det å dele mindre kan være en måte å forebygge at det får for mye makt, disse nye bildene, sier Bergsjø.

Publisert 28.03.2025, kl. 21.45

Read Entire Article