AI kan hjælpe blinde og svagsynede med at aflæse verden omkring dem – og viser samtidig, hvor den fejler. Systemerne løser mange opgaver korrekt, men mangler en indbygget “stopknap”, når grundlaget er for tyndt. De kan altså ikke skelne sikkert mellem viden og kvalificeret gæt – og svarer ofte uden at markere usikkerhed, viser ny forskning.
En person med synshandikap står med to næsten ens medicinæsker og tager telefonen frem. En AI er blevet en fast hjælper til at læse etiketter. Svaret kommer hurtigt og lyder sikkert, fordi modellen er trænet til at formulere det mest sandsynlige svar ud fra mønstre i data – ikke til at vurdere, om den har nok information. Dermed fremstår den som en pålidelig guide – og i praksis som en beslutningsaktør.
Hun følger svaret og tager den æske, AI’en angiver. Senere dobbelttjekker hun – og opdager, at anvisningen var forkert.
Risikoen for, at AI vildleder mennesker med et synshandikap, har forskere fra Københavns Universitet og Heriot-Watt University i Edinburgh undersøgt i et nyt studie. De præsenterede resultaterne på Annual Meeting of the Association for Computational Linguistics i Østrig i 2025, hvor studiet indgår i forskningen i såkaldte multimodale sprogmodeller – systemer, der kombinerer billed- og tekstforståelse.
Bag studiet står et forskerhold fra Københavns Universitet og Heriot-Watt University i Edinburgh, med Anders Søgaard som en af hovedforfatterne. Han er professor i naturlig sprogbehandling ved Københavns Universitet og pointerer, at resultaterne bekræfter en mistanke hos forskerne: Modellerne klarer de enkle opgaver bedst og får problemer, når opgaven kræver præcision og kontekst.
”Det paradoksale er, at risikoen for fejl bliver størst i de komplekse situationer, hvor man har mest brug for hjælp, og hvor det samtidig kan være svært at mærke, at man bevæger sig ud på usikker grund,” siger Anders Søgaard og fortsætter:
”I et større perspektiv handler det om, hvad der sker, når vi begynder at lægge hverdagsfunktioner og hjælpemidler over på AI. Hvis systemerne lyder sikre, mens de faktisk gætter, udvisker de skellet mellem viden og gæt – og kan dermed ende med at gøre brugerne en bjørnetjeneste ved at vildlede frem for at vejlede dem.”
Brugerne satte kursen
Kimen til studiet opstod, da Anders Søgaard og hans kolleger satte sig for at finde ud af, om de tests, de selv og andre normalt læner sig op ad, egentlig siger noget om AI som hjælpemiddel i praksis. De gik testene igennem, én for én, og stødte på det samme mønster. Billederne var typisk taget af seende til helt almindelige formål, delt på nettet og senere gjort klar til forskning af andre. Motivet stod tydeligt, spørgsmålene var korte og ofte på engelsk, og svarene lå lige for.
De kunne altså sagtens måle noget – typisk om modellen kan genkende objekter i velkomponerede billeder.
Men de målte sjældent det, et hjælpemiddel kræver i praksis: evnen til at handle under usikkerhed.
At tolke slørede fotos, delvis tekst og ufuldstændige visuelle spor fra et mobilkamera i en konkret situation.
”Vi kunne ikke tage en standardtest fra hylden og regne med, at den målte det, et visuelt hjælpemiddel faktisk skal kunne. Vi måtte skrue evalueringen sammen, så den ramte de situationer, hvor folk bruger teknologien,” siger Anders Søgaard.
Derfor begyndte forskerne med et spørgeskema, fortæller han. Først udviklede de det sammen med blinde og svagsynede med forskellige grader af synshandikap og justerede spørgsmålene i to runder, så de fungerede i praksis og ramte mere præcist. Derefter lod de en større gruppe svare, og i alt deltog 106.
Forskerne sorterede efterfølgende besvarelser fra personer uden synshandikap fra og gennemgik friteksten systematisk, så den kunne samles i temaer frem for enkelthistorier.
Fra erfaringer til test
Svarene fungerede som datagrundlag for realistiske testscenarier – og blev dermed direkte koblet til de situationer, hvor fejl har konsekvenser i praksis.
Forskerne brugte dem til at identificere, hvilke opgaver modellerne skulle vurderes på, og hvor fejl har størst konsekvens – fx læsning af emballage, billeder i beskeder, punktskrift, hjælpemidler og korte videoklip.
”Vi brugte mere tid på spørgeskemaet, end man måske tror, fordi formen betyder alt. Hvis spørgsmålene ikke giver mening for deltagerne, får man heller ikke de erfaringer frem, som testen skal bygges på,” siger Anders Søgaard.
Svarene pegede på de udfordringer, der fylder i hverdagen, fordi information ofte gives visuelt og derfor ikke er umiddelbart tilgængelig: tekst på emballage, billeder i beskeder, korte videoer, punktskrift og hjælpemidler.
Evalueringspakken kom som næste skridt. Forskerne byggede fem deltests, som hver rammer et område, brugerne beskrev, og de lod 13 gratis og frit tilgængelige AI-modeller forsøge sig på samme type spørgsmål, som en bruger stiller.
Søgaard fremhæver, at de pressede modellerne på flere sprog end engelsk, så de kunne se, om hjælpen også holder, når brugeren ikke spørger på modellernes “hjemmebane”. De lagde også bevidst opgaver ind, hvor billedet eller videoen ikke indeholder nok information til et sikkert svar. Det gjorde det muligt at måle noget centralt: om modellen kan undlade at svare, når evidensen er utilstrækkelig – en evne forskere kalder “abstention”.
”Vi byggede metoden, så den både tester, om modellerne kan svare, og om de kan lade være, når materialet ikke rækker. Det er i praksis mindst lige så vigtigt for et hjælpemiddel,” siger Anders Søgaard.
Fejlene gemmer sig i de svære opgaver
Resultaterne tegner et klart billede, påpeger Anders Søgaard: Modellerne fungerer bedst, når spørgsmålet er enkelt, og billedet giver klare spor.
Svaret bliver langt mere usikkert, når opgaven kræver præcision, kontekst og sproglig forståelse – altså når modellen skal kombinere flere typer information frem for blot at genkende et objekt. Her øges risikoen for såkaldte hallucinationer – hvor modellen ikke blot tager fejl, men udfylder manglende viden med et plausibelt, men forkert svar uden at markere det.
“Vi ser igen og igen, at de svære spørgsmål får de mest selvsikre svar, selv dér hvor materialet ikke rækker,” siger Anders Søgaard.
Kulturelle billedbeskrivelser viser, hvorfor det kan skride. Flere modeller kan give en overordnet beskrivelse, men glider forbi navne, symboler og skrift, som ofte bærer pointen. Flersprogede spørgsmål trækker samme tendens frem.
Modeller, der virker stabile på engelsk, bliver mere ujævne på andre sprog, blandt andet fordi de typisk er trænet på langt større mængder engelsksproget data. Det betyder, at deres “erfaringsgrundlag” er smallere, når brugeren spørger på andre sprog, og nogle skifter tilbage til engelsk i svaret, selv om brugeren spørger på et andet.
Her begynder det at skride
Punktskrift rammer et andet ømt punkt. De fleste modeller har svært ved at læse prikkerne direkte fra et foto, fordi punktskrift kræver finmasket rumlig opløsning og præcis lys-skygge-fortolkning – noget, standardmodeller ikke er optimeret til.
Hjælpemidler viser en beslægtet begrænsning, fordi modellerne oftere genkender almindelige ting end udstyr, som mange blinde bruger i hverdagen. Og i video bliver usikkerheden endnu sværere at se, fordi et klip let mangler en afgørende detalje.
Praktisk set giver det en skævhed i hjælpen. En model kan være nyttig i mange små situationer og stadig falde igennem i de øjeblikke, hvor svaret skal kunne stå alene. Derfor bliver evnen til at vise tvivl central – ikke som en svaghed, men som en forudsætning for at kunne stole på svaret.
Uden den får brugeren samme sikre tone, uanset om modellen bygger på tydelig information eller gætter – og forskellen bliver usynlig netop dér, hvor den betyder mest.
Næste skridt kræver tvivl
Vejen frem ligger ikke kun i at øge andelen af korrekte svar, men i at ændre, hvad vi forstår som et “godt svar” – og i at udvikle systemer, der kan vurdere deres egen sikkerhed og reagere derefter.
Studiet peger også på, at nogle færdigheder kan løftes med målrettet træning, blandt andet på punktskrift. Men den vigtigste forbedring handler om, hvordan systemet opfører sig, når det ikke ved nok.
“Det vigtige næste skridt er, at systemerne bliver bedre til at signalere usikkerhed i tide, så brugeren kan handle på det i stedet for at få et svar, der lyder mere sikkert, end det er,” siger Anders Søgaard.
Næste bølge af studier må derfor tættere på brugen i praksis. Navigation i realtid og længere forløb under tidspres indgår ikke her, og netop de situationer kan presse teknologien hårdere end en afgrænset test. Det bliver også her, man for alvor kan se, om systemet hjælper brugeren med at tage et nyt billede, stille et bedre spørgsmål eller vælge en anden løsning, før fejlen bliver til en beslutning.
Til sidst vender historien tilbage til tillid. Blinde og svagsynede bruger allerede AI, fordi teknologien kan give hurtig adgang til information. Studiet viser samtidig, hvor let trygheden bliver falsk, hvis systemet ikke skelner tydeligt mellem svar baseret på tilstrækkelig evidens og svar, der udfylder hullerne.
“Hvis vi begynder at bruge AI som et hjælpemiddel i hverdagen, skal den også opføre sig som et hjælpemiddel, der siger fra, når den ikke har grundlag. Ellers risikerer vi at gøre folk mindre selvstændige ved at give dem noget, de ikke kan stole på,” siger Anders Søgaard.
Problemet er ikke kun, at AI kan tage fejl – men at den lyder, som om den ikke gør.
