torsdag 15. februar 2024

Lanseringsseminar NB-Whisper

Tale er det som skiller oss mennesker fra dyr. Etter hvert har vi også utviklet skriftspråk og boktrykkekunst, og dette har blitt digitalisert, men tale er fremdeles mest praktisk og effektivt for de fleste formål. Det er stort sett tale vi bruker når vi omgås andre mennesker. Tale har imidlertid vært en knotete måte å samhandle med maskiner på. Hjemme har jeg såkalte smarte systemer som er talebaserte og som kan styre alt fra lys til musikk, men jeg bruker de ikke så mye; rett og slett fordi de ofte misforstår meg. Jeg har lenge tenkt at den dagen dette faktisk fungerer så tror jeg mye kan endre seg. I dag, 15. februar 2024, er kanskje denne dagen her. Nasjonalbiblioteket har nå frigitt sine tale-til-tekst-modeller.

Aslak Sira Myhre åpnet lanseringsseminaret med å fortelle om hvorfor vi har Nasjonalbiblioteket. Deres oppgave er å være vår kollektive hukommelse. De har alle norskproduserte dokumenter lagret, slik som aviser, tidsskrifter og bøker, men også digitale dokumenter, film, video, fotografi, kart, kringkasting, lydbøker, musikk, notetrykk, postkort, plakater, småtrykk og teatermateriale. 

Allerede i 2004-2005 startet de sitt store digitaliseringsprogram. Det var svært fremsynt, det var faktisk unikt i verdenssammenheng. Og det har ført til at det meste av det norske skriftspråk, slik som bøker og aviser, nå er digitalisert.

Dette arbeidet har blitt styrket ved at Språkbanken ble opprettet i 2010. Språkbanken har som formål å lage store datasett for å utvikle god språkteknologi for norsk.

I seminaret tok Yngvil Beyer, seksjonsleder for Språkbanken, over roret etter Aslak og introduserte dagens store helt, Per Egil Kummervold. Det er Per Egil som har ledet AI-laben i arbeidet med å utvikle norske hviske-modeller. Nasjonalbibliotekets AI-lab i Rana. Eller Rana, Madrid og Tromsø, som det ble sagt. Med på laget har Per Egil hatt Freddy Wetjen, Rolv-Arild Braaten og Javier de la Rosa.

Nasjonalbibliotekets AI-lab har utviklet fem modeller: de kalles Tiny, Base, Small, Medium, Large. Alle er basert på OpenAI sin whisper teknologi. Den minste (Tiny) krever relativt lite regneressurser og kan være praktisk for eksempel for bruk på mobiltelefoner. Den største krever 32x mer regneressurser og bør ha kraftige maskiner for å kjøre. Dataene som har blitt brukt er til sammen 23 189 timer med transkribert lyd. Kildene er stortingstaler, Norsk språkteknologi fra Voss, NRKs undertekster fra fjernsynsproduksjoner (semantisk data, 14 000 timer) og lydbøker (ganske ordrett).

Nasjonalbiblioteket publiserer dette som åpne modeller, tilgjengelig for alle. Modellene er lagt ut på Hugging Face, og hvem som helst kan laste de ned og bruke de. Det betyr antakelig at Nasjonalbiblioteket går glipp av massive inntekter, og det er du og jeg og samfunnet som er vinneren. Dette går hånd i hånd med tanken om at KI-modeller kan sees på som grunnleggende infrastruktur, og at nasjonale institusjoner som for eksempel Nasjonalbiblioteket og universiteter har et ansvar for å bygge denne infrastrukturen.

KI-agoritmer som blir grunnleggende infrastruktur, og som i tillegg er bygd av skattebetalernes penger, må være åpen og tilgjengelig. Det skaper tillit til teknologien og de som utvikler disse, og det gjør at modellene kan videreutvikles av andre. Og ikke minst er åpne modeller grunnlaget for innovasjon. Nå er det opp til næringslivet å lage tjenester på toppen av disse modellene. Og det skulle vise seg å skje fort. Eller som Per Egil sa: «Per nå finnes ikke kommersiell programvare for å laste ned og kjøre modellene, men vi tror det kommer raskt. Kanskje allerede før lunsj i dag.»

Og før lunsj kom det. VGs (Schibsteds) Anders Haarr fortalte om applikasjonen Jojo. Den kan lastes ned og testes ut allerede i dag. VG har brukt den en stund selv - de har også vært med i en test-gruppe i lang tid. Vi fikk høre flere morsomme eksempler på hvordan tidligere versjoner av modellene hadde gjort feil. Latteren spredte seg i lokalet når Vedums latter ble transkribert som «gløgg» gjentatt over en hel a4-side. Andre morsomheter begått av tidligere versjoner var når «drosjesjåfør» ble transkribert "råstorsforfør" og "de har en gjennomsnittsalder på 47 år" ble til "de har en jævla fritidsalder på 47 år". For ikke å snakke om feilaktige oversettelser av egennavn, "Guttormsen" ble blant annet "Gutter-mussen". Schibsted vurderte visst selv å skifte navn til Chipssted, for å tilfredsstille algoritmene.

Det var noen barnesykdommer i utviklingsfasen, men nå går alt så meget bedre. Det er et imponerende arbeid Nasjonalbiblioteket har gjort. Modellen er langt bedre på norsk enn det OpenAI sine modeller er. De fungerer på norske dialekter, norsk og nynorsk, og også samisk, selv om det ikke ble vist.

Jeg har lenge tenkt at fremtidens interaksjoner med teknologi i mye større grad vil være gjennom tale. Nå er fremtiden her.

fredag 5. januar 2024

Kunstig intelligens – hva hvis vi lykkes?

Fra Fredriksstad Blad 04.01.24 

Drømmen for mange forskere og utviklere av kunstig intelligens har vært å skape dataprogrammer som er smartere enn oss selv. Det har vi allerede fått til innenfor mange spesifikke områder, som for eksempel for sjakk. Utfordringen har vært å utvikle programmer som er intelligente på de aller fleste områder, slik som menneskehjernen. Denne intelligensen kan ta form som et program i en datamaskin, som kan hjelpe til med alle oppgaver vi bruker datamaskinen til, eller den kan være en personlig assistent i telefonen som vi alltid kan ha med oss. Eller så kan intelligensen sitte i en robot, slik at roboter kan hjelpe oss med mange av våre oppgaver.

For de aller fleste har dette vært en drøm om noe som kanskje kan bli realitet langt inn i fremtiden, og mange har ment at det aldri vil kunne skje at maskiner blir mer intelligente enn mennesker. I 2023 endret dette synet seg for veldig mange.

Denne endringen i synet på kunstig generell intelligens kommer som en konsekvens av den voldsomme utviklingen i fagfeltet de siste par årene. Vi har fått verktøy, som OpenAI sin ChatGPT eller Google sin Gemini, som til tider kan virke like intelligente som mennesker. I tillegg har disse modellene nå mulighet til å tolke bilder og generere bilder. De er med andre ord ikke bare tekstbaserte, men de kan også «se». Ikke lenge før jul kom det nye modeller hvor disse verktøyene også forstår tale svært godt. Programmene har blitt det vi kaller multimodale. De har nå flere sanser å spille på, og som kan kombineres slik at maskinen får en bedre forståelse av verden og dermed kan ta bedre beslutninger.

Det er ingen tvil om at kunstig intelligens er i ferd med å bli en kraftfull teknologi. Hele vår sivilisasjon er en konsekvens av intelligens, og det er vanskelig å spå hva som vil skje dersom den totale intelligensen på jorda mangedobles. Men det kan skje, og den mulige oppsiden er enorm. Kraftfulle teknologier kan brukes til mye bra, men de kan også misbrukes. I mange år har sterke personligheter som Elon Musk, Max Tegmark, Stuart Russell og Stephen Hawking anerkjent de mulige oppsidene, men de har også advart mot potensielle negative konsekvenser ved misbruk av kunstig intelligens. Disse personene har til og med vært blant de relativt få som har kalt kunstig intelligens en mulig «eksistensiell trussel» for menneskeheten. Akademikere har stort sett ikke tatt disse tankene veldig seriøst, men i 2023 har dette i stor grad endret seg. Den store endringen kom etter at «the godfather of AI», Geoffrey Hinton, endret syn på dette. Han var tidligere veldig skeptisk til disse dommedagsprofetiene, men i mai gikk han ut i et intervju i New York Times og advarte mot de eksistensielle farene ved kunstig intelligens. Samtidig sa han opp en bistilling han hadde i Google, slik at han fritt kunne si hva han mente.

Hinton, og andre med ham, har det siste året tatt opp flere interessante eksistensielle spørsmål. Hvordan kan for eksempel en art ha kontroll over en annen art som er mer intelligent? Er det i det hele tatt mulig? Hvordan kan vi sørge for at kunstig intelligens kommer hele menneskeheten til gode?

Mange forskere og utviklere har det siste året ønsket en pause i utviklingen av kunstig intelligens. De mener den går for raskt. Men det er svært vanskelig, om ikke umulig, å pause en teknologisk utvikling. Noen land og miljøer vil uansett ikke sette utviklingen på pause. Så da er alternativet å intensivere forskningen på spørsmålene om hvordan kunstig intelligens kan kontrolleres og styres til det beste for menneskeheten, og så må teknologien reguleres. Det vil raskt komme reguleringer på dette området. Like før jul ble det enighet i EU om en forordning som nå skal implementeres i EU-land, og som er ventet å bli implementert raskt også i Norge. 

Skal vi frykte en fremtid med kunstig intelligens? Jeg mener helt klart nei. Kunstig intelligens har enorme oppsider. Teknologien vil gi oss muligheter til å utvikle nye medisiner og gi mer persontilpasset behandling, mange yrker vil bli enklere og en del oppgaver vil bli tatt over av kunstig intelligens. Dette betyr selvfølgelig at samfunnet må endre sin struktur, og endring kan være smertefullt, men alt i alt vil det bety at vi kan skape mer verdi, og ved god politisk styring kan dette føre til mindre fattigdom, bedre helse og at vi alle får mer tid til å gjøre spennende og viktige oppgaver.

Det var oppsidene. Men hvorfor tror jeg ikke vi skal frykte negative konsekvenser av kunstig intelligens? Fordi jeg mener at det ikke er intelligens som er grunnen til lidelse og undertrykkelse i verden. Gjennom evolusjonen er vi programmert til å kjempe for våre egne gener. At det nå er krig i Ukraina og Midtøsten er ikke fordi vi har for mye intelligens, snarere tvert imot. Hadde de mest intelligente menneskene vært de som regjerte planeten så ville Einstein vært enehersker for lenge siden. Slik er det ikke. Det er helt andre årsaker til at noen mennesker velger å undertrykke andre for egen vinnings del. Og disse mindre sympatiske menneskelige trekkene kommer vi ikke til å programmere inn i algoritmene. Men det betyr ikke at vi ikke skal ta de alvorlige spørsmålene til skarpe hoder som Hinton, Tegmark, Musk, Hawking, Russell og stadig flere forskere seriøst. Spørsmålene er viktige, og de angår oss alle.

Heldigvis har vi i 2023 sett at norske politikere og beslutningstakere virkelig har våknet. Nå må vi skape flere arenaer for å diskutere kunstig intelligens, Norge må ta del i utviklingen og så bør så mange som mulig teste ut disse spennende verktøyene som er der ute. For fagfeltet kunstig intelligens er for viktig til å bli overlatt til teknologer alene. Kunstig intelligens angår oss alle.

Ressurser/Linker

 'Godfather of AI' warns that AI may figure out how to kill people:


Tittelen på dette innlegget er inspirert av Stuart Russell, som har skrevet "If We Succeed" og holdt flere foredrag om dette temaet: