torsdag 15. februar 2024

Lanseringsseminar NB-Whisper

Tale er det som skiller oss mennesker fra dyr. Etter hvert har vi også utviklet skriftspråk og boktrykkekunst, og dette har blitt digitalisert, men tale er fremdeles mest praktisk og effektivt for de fleste formål. Det er stort sett tale vi bruker når vi omgås andre mennesker. Tale har imidlertid vært en knotete måte å samhandle med maskiner på. Hjemme har jeg såkalte smarte systemer som er talebaserte og som kan styre alt fra lys til musikk, men jeg bruker de ikke så mye; rett og slett fordi de ofte misforstår meg. Jeg har lenge tenkt at den dagen dette faktisk fungerer så tror jeg mye kan endre seg. I dag, 15. februar 2024, er kanskje denne dagen her. Nasjonalbiblioteket har nå frigitt sine tale-til-tekst-modeller.

Aslak Sira Myhre åpnet lanseringsseminaret med å fortelle om hvorfor vi har Nasjonalbiblioteket. Deres oppgave er å være vår kollektive hukommelse. De har alle norskproduserte dokumenter lagret, slik som aviser, tidsskrifter og bøker, men også digitale dokumenter, film, video, fotografi, kart, kringkasting, lydbøker, musikk, notetrykk, postkort, plakater, småtrykk og teatermateriale. 

Allerede i 2004-2005 startet de sitt store digitaliseringsprogram. Det var svært fremsynt, det var faktisk unikt i verdenssammenheng. Og det har ført til at det meste av det norske skriftspråk, slik som bøker og aviser, nå er digitalisert.

Dette arbeidet har blitt styrket ved at Språkbanken ble opprettet i 2010. Språkbanken har som formål å lage store datasett for å utvikle god språkteknologi for norsk.

I seminaret tok Yngvil Beyer, seksjonsleder for Språkbanken, over roret etter Aslak og introduserte dagens store helt, Per Egil Kummervold. Det er Per Egil som har ledet AI-laben i arbeidet med å utvikle norske hviske-modeller. Nasjonalbibliotekets AI-lab i Rana. Eller Rana, Madrid og Tromsø, som det ble sagt. Med på laget har Per Egil hatt Freddy Wetjen, Rolv-Arild Braaten og Javier de la Rosa.

Nasjonalbibliotekets AI-lab har utviklet fem modeller: de kalles Tiny, Base, Small, Medium, Large. Alle er basert på OpenAI sin whisper teknologi. Den minste (Tiny) krever relativt lite regneressurser og kan være praktisk for eksempel for bruk på mobiltelefoner. Den største krever 32x mer regneressurser og bør ha kraftige maskiner for å kjøre. Dataene som har blitt brukt er til sammen 23 189 timer med transkribert lyd. Kildene er stortingstaler, Norsk språkteknologi fra Voss, NRKs undertekster fra fjernsynsproduksjoner (semantisk data, 14 000 timer) og lydbøker (ganske ordrett).

Nasjonalbiblioteket publiserer dette som åpne modeller, tilgjengelig for alle. Modellene er lagt ut på Hugging Face, og hvem som helst kan laste de ned og bruke de. Det betyr antakelig at Nasjonalbiblioteket går glipp av massive inntekter, og det er du og jeg og samfunnet som er vinneren. Dette går hånd i hånd med tanken om at KI-modeller kan sees på som grunnleggende infrastruktur, og at nasjonale institusjoner som for eksempel Nasjonalbiblioteket og universiteter har et ansvar for å bygge denne infrastrukturen.

KI-agoritmer som blir grunnleggende infrastruktur, og som i tillegg er bygd av skattebetalernes penger, må være åpen og tilgjengelig. Det skaper tillit til teknologien og de som utvikler disse, og det gjør at modellene kan videreutvikles av andre. Og ikke minst er åpne modeller grunnlaget for innovasjon. Nå er det opp til næringslivet å lage tjenester på toppen av disse modellene. Og det skulle vise seg å skje fort. Eller som Per Egil sa: «Per nå finnes ikke kommersiell programvare for å laste ned og kjøre modellene, men vi tror det kommer raskt. Kanskje allerede før lunsj i dag.»

Og før lunsj kom det. VGs (Schibsteds) Anders Haarr fortalte om applikasjonen Jojo. Den kan lastes ned og testes ut allerede i dag. VG har brukt den en stund selv - de har også vært med i en test-gruppe i lang tid. Vi fikk høre flere morsomme eksempler på hvordan tidligere versjoner av modellene hadde gjort feil. Latteren spredte seg i lokalet når Vedums latter ble transkribert som «gløgg» gjentatt over en hel a4-side. Andre morsomheter begått av tidligere versjoner var når «drosjesjåfør» ble transkribert "råstorsforfør" og "de har en gjennomsnittsalder på 47 år" ble til "de har en jævla fritidsalder på 47 år". For ikke å snakke om feilaktige oversettelser av egennavn, "Guttormsen" ble blant annet "Gutter-mussen". Schibsted vurderte visst selv å skifte navn til Chipssted, for å tilfredsstille algoritmene.

Det var noen barnesykdommer i utviklingsfasen, men nå går alt så meget bedre. Det er et imponerende arbeid Nasjonalbiblioteket har gjort. Modellen er langt bedre på norsk enn det OpenAI sine modeller er. De fungerer på norske dialekter, norsk og nynorsk, og også samisk, selv om det ikke ble vist.

Jeg har lenge tenkt at fremtidens interaksjoner med teknologi i mye større grad vil være gjennom tale. Nå er fremtiden her.