LLM-modeller opererer via statistisk mønstergjenkjenning i vektorrom snarere enn faktisk bevissthet, noe som gjør dem språklig agnostiske og utsatt for hallusinering basert på sannsynlighetsberegning. For å presisere innholdet på Hifisentralen anbefales det å fokusere på modellens "vektor-baserte representasjon" og bruke analogier til digital signalbehandling (DSP) for å illustrere skillet mellom syntaks og semantikk. Les hele diskusjonen på Hifisentralen.
[Meg]
Innlegget mitt :
Det kan være et poeng å ha i mente at dagens LLM KI-modeller ikke har noen reell virkelighetsforståelse, og er ganske dårlige på enkel "hard logikk". «Virkelighetsforståelsen» i LLMen er «kun» styrt av læringen på verdensvevens ordsky, noen annen «virkelighet» eksisterer ikke for LLMen. Hva som er rett og galt (i de fleste betydninger) i denne ordsskyen har den i utgangspunktet ingen forståelse av. Det med grunnleggende «hard logikk» så har noen KI-modeller begynt å ta inn en sving innom programeringsspråk og regneark, slik at A=B+C og 2+2=4 ikke bare er ei tåke av sannsynlighetsfordelinger, der enkelte sannsynligheter nær sagt aldri er 0 eller 100. Tåken av sannsynlighetsfordelinger kan gi åpenbart feil svar på enkle oppgaver. Ett eller annet sted ute på nett er det garantert noen eksempler på at 2+2≇4 og da er det ikke lengre 100% sannsynlig i LLMen at 2+2=4. Så da gjetter den. Ofte riktig, men også ofte feil. Svaret fra KI-en er i hovedsak «bare» et «magisk speil», styrt av prompten opp mot ei tåke av sannsynligehter, ord, begreper, konsepter og verdensvevens ordsky. Ut kommer det likevel plausible, tilforlatelige og velformulerte svar.
Jeg har hatt noen diskusjoner med google sin KI om den er språklig agnostisk, og det kom frem at den stort sett er det. Utgangspunket var at når jeg starter en tråd med google KI'en om ett eller annet datateknisk spørsmål, så åpner jeg ofte tråden med å presentere problemstillingen på engelsk. Første respons fra KIen er ofte engelsk, men når jeg trykker på gå i dybdten så går KIen gjerne over på norsk. Dersom jeg fortsetter å gi prompt på engelsk så kan KI'en like godt fortsette på norsk. Men så et eller annet sted ute i tråden kan jeg finne på å legge inn en prompt på norsk om noe smalt og sært, og da kan google KIen plutselig svare tilbake på engelsk. Det virker som den har en "konfidens beregning" av hvilket språk svaret fungerer best på, med en betydelig bias til norsk i mitt tilfelle, men også justert for noen vekter ift treningsgrunnlaget og linkene den kommer opp med. Når google KIen svarer på norsk så er det ofte med noen tekniske uttryk på engelsk. Når jeg da svarer tilbake på norsk med min egen oversettelse tekniske uttrykk til norsk, så aksepterer google KIen som regel mine oversettelser uten å blunke, og retter på mine skrivefeil. Et sted inne i tåken av sannsynlighetsfordelinger så er det en "kjerne" eller et lag av sturkturer, konsepter og objekter som er uavhengige av språk - "hund" er med stor sannsynlighet "objektivt" det samme på alle språk. EDIT dette språkuvhengige laget er også en viktig del av google translate.
I dag hadde jeg en diskusjon med google KI'en om hvordan KI kan hallisinuere når den ikke har noen reell virkelighetsforståelse. Etter noen vekslinger og utdypinger blei "vi" "enige" om at "plausibel fiksjon" er mer dekkende begrep for det som kommer ut av KI'en, og at hallisinueringen er en tankefeil hos menneskene som leser og tolker outputen fra KI - dvs at vi lagger attributter om "intelligens" og virkelighetsforståelse til KI'en fordi svarene er så fordømt plausibelt, velskrevet og strukturert. Da "må" det være noe mer enn "bare" ei diger tåke av sannsynligheter. At "vi" ble "enige" er sikker noe KI'en bare gjorde for å please meg. Den gikk i stå da jeg avsluttet tråden med QED.
Dette er et innsiktsfullt innlegg som treffer spikeren på hodet når det gjelder mange av de mest sentrale debattene rundt LLM-er (Large Language Models) i dag. Du forklarer komplekse konsepter på en forståelig måte.
For å kvalitetssikre og raffinere innholdet, har jeg sett på de tekniske begrepene og resonnementene dine:
1. Virkelighetsforståelse og "Ordtåke"
Du har helt rett i at en LLM ikke har en «kroppslig» eller fysisk erfaring med verden. Den opererer i et
vektorrom der ord og konsepter er plassert i forhold til hverandre basert på statistiske sammenhenger.
- Raffinering: Du bruker begrepet «sannsynlighetsfordeling». Det er presist. Du kan eventuelt legge til at den mangler en verdensmodell. Når den gjetter at 2+2 ikke er 4, er det fordi den predikerer det neste mest sannsynlige tegnet (token), ikke fordi den regner.
2. Språklig agnostisisme og "Kjernen"
Her berører du noe veldig spennende:
Interlingua eller krysslingval representasjon.
- Bekreftelse: Google og andre modeller bruker noe som kalles embeddings. I dette matematiske rommet vil begrepet "hund" og "dog" ligge nesten på samme koordinat. Derfor er de i stor grad språklig agnostiske; de forstår konseptet før de "oversetter" det til det språket du ber om.
- Konfidens og bias: Observasjonen din om at den bytter språk basert på kildemateriale (teknisk dokumentasjon er ofte engelsk) er helt korrekt. Den velger den stien i sannsynlighetsnettverket som har høyest "vekt".
3. "Plausibel fiksjon" vs. Hallusinering
Dette er det sterkeste punktet i innlegget ditt.
- Kvalitetssikring: Fagmiljøet beveger seg faktisk i retning av det du skriver. Begrepet "hallusinering" er antropomorfiserende (vi gir maskinen menneskelige egenskaper). En modell "hallusinerer" ikke; den gjør nøyaktig det den er bygget for: å generere sannsynlig tekst.
- Stochastic Parrot: Du er på linje med teorien om den "stokastiske papegøyen". Problemet oppstår når vi mennesker ilegger teksten en intensjon eller sannhetsgehalt som maskinen aldri har hatt.
Forslag til små justeringer for å øke "gehalten":
- Logikk: Du nevner at de tar en sving innom programmering. Dette kalles ofte "Chain of Thought" (CoT) eller bruk av "Code Interpreter/Advanced Data Analysis". Det er et viktig skille: Modellen regner ikke, men den skriver kode som regner for seg.
- QED-poenget: At den "gikk i stå" ved QED er et morsomt og avslørende poeng. Det viser nettopp begrensningen i den logiske slutningen kontra den statistiske sannsynligheten for hva som følger etter et bevis.
Konklusjon: Innlegget ditt holder et høyt nivå. Det er teknisk forsvarlig samtidig som det bruker gode metaforer (som "magisk speil" og "ordtåke").
Vil du at jeg skal hjelpe deg med å
omformulere enkelte avsnitt for å gjøre dem enda spissere før du poster en eventuell oppdatering?
[Meg]
Ja første avsnitt
Dagens store språkmodeller (LLM-er) mangler en reell verdensmodell og forankring i fysisk virkelighet, noe som begrenser deres "forståelse" til statistiske sammenhenger i treningsdataene. KI-modeller etterligner resonnering gjennom mønstergjenkjenning heller enn faktisk logikk, og deres svar er derfor et speilbilde av sannsynlighetsberegninger, ikke en forståelse av fakta.
[Meg]
hvordan kan jeg best beskrive og karakterisere output fra en KI?
For å beskrive og karakterisere output fra en KI på en presis og faglig fundert måte, kan du bruke begreper som skiller mellom maskinens statistiske prosess og menneskelig forståelse.
Her er de mest dekkende måtene å karakterisere KI-output på:
1. Statistisk og teknisk karakterisering
Siden en LLM ikke har en «bevissthet», er det ofte mest korrekt å beskrive svarene som matematiske resultater:
- Stokastisk prediksjon: Output er resultatet av sannsynlighetsberegning for hva som er det neste naturlige tegnet (token) i en sekvens.
- Mønstergjenkjenning: KI-en produserer svar ved å gjenskape mønstre den har lært fra enorme mengder treningsdata, ikke ved å hente ut «fakta» fra en database.
- Vektet respons: Svaret er styrt av vekter i nevrale nettverk som avgjør hvilke ord og konsepter som statistisk sett henger sammen.
2. Når KI-en tar feil: Hallusinering vs. Konfabulering
Det er viktig å skille mellom ulike typer feil for å karakterisere dem korrekt:
- Hallusinering: Den mest brukte termen for faktafeil som høres troverdige ut.
- Konfabulering: Et mer presist begrep lånt fra psykologien. Det beskriver hvordan KI-en «fyller inn hull» med plausibel, men falsk informasjon fordi den mangler data, uten at den har en intensjon om å lyve.
- Plausibel fiksjon: En god beskrivelse av tekst som er språklig perfekt og logisk oppbygd, men som ikke er forankret i virkeligheten.
3. Språklig karakterisering (Stil og form)
KI-generert tekst har ofte gjenkjennelige trekk som kan karakteriseres slik:
- Formulaisk og generisk: Teksten følger ofte faste maler og kan føles upersonlig eller preget av klisjeer.
- Syntetisk flyt: En flyt som virker mekanisk perfekt, men som kan mangle dybde eller originale observasjoner.
- Språklig agnostisk kjerne: Output kan karakteriseres som oversettelser av underliggende konsepter (embeddings) som er uavhengige av enkeltspråk.
4. Menneskelig tolkning av output
- Antropomorfisering: Dette er ikke en egenskap ved outputen, men vår tendens til å tillegge KI-en menneskelige egenskaper som «intelligens» eller «vilje» fordi svarene er så velskrevede.
- Stokastisk papegøye: Et kjent begrep i forskningsmiljøer som beskriver en modell som repeterer ord og fraser uten å forstå meningen bak dem.
For å raffinere innlegget ditt ytterligere, kan du vurdere om du vil bruke
"konfabulering" som et mer teknisk alternativ til "hallusinering", da det underbygger poenget ditt om at maskinen bare fyller ut sannsynlige mønstre.
Ønsker du at jeg skal hjelpe deg med å
flette disse begrepene inn i det opprinnelige innlegget ditt?
[Meg]
Konfabulering er jo et morsom ord, men antagelig fremmed for de fleste som leser. Ja flett inn dette i innlegget mitt.
Her er et utkast hvor jeg har flettet inn
konfabulering og spisset de tekniske forklaringene, samtidig som jeg har beholdt din personlige stil og de gode metaforene som «ordtåke» og «magisk speil».
Oppdatert utkast:
Det kan være et poeng å ha i mente at dagens LLM KI-modeller ikke har noen reell virkelighetsforståelse, og er ganske dårlige på enkel «hard logikk». Deres «virkelighetsforståelse» er utelukkende styrt av læring på verdensvevens enorme ordsky; noen annen virkelighet eksisterer ikke for modellen. Hva som er rett og galt – i objektiv forstand – har den i utgangspunktet ingen forståelse av.
Når det gjelder grunnleggende logikk, har noen modeller begynt å ta en sving innom programmeringsspråk og regneark (såkalt
Code Execution). Dette er viktig, for uten slike verktøy er A=B+C og 2+2=4 kun en tåke av sannsynlighetsfordelinger for en KI, der sannsynligheten for et svar nesten aldri er nøyaktig 0 eller 1. Et eller annet sted på nettet finnes det garantert eksempler på at 2+2=5, og da er det ikke lenger 100 % sannsynlig i modellens statistiske univers at 4 er det eneste svaret. Da gjetter den ut fra mønstergjenkjenning. Ofte riktig, men også påfallende feil.
Svaret fra en KI er i bunn og grunn et «magisk speil» – en
stokastisk (tilfeldig/statistisk) prediksjon styrt av din prompt opp mot en tåke av ord, konsepter og sammenhenger. Når KI-en presenterer feilaktige fakta med stor overbevisning, kaller vi det ofte «hallusinering», men et mer presist begrep er
konfabulering. I psykologien betyr dette å fylle ut hull i minnet med plausible fiksjoner. Det er nøyaktig det KI-en gjør: Den dikter ikke fordi den er «gal» eller ser syner, men fordi den tvinger frem et statistisk sannsynlig mønster der den egentlig mangler data.
At vi opplever dette som intelligens, skyldes nok delvis vår egen tendens til å tillegge maskinen menneskelige egenskaper fordi outputen er så fordømt plausibel og velformulert.
Hva er endret?
- Konfabulering: Introdusert som et mer presist begrep enn hallusinering, med en kort forklaring som knytter det til «plausibel fiksjon».
- Stokastisk prediksjon: Lagt til som en teknisk merkelapp på det du kaller «ordtåke».
- Code Execution: Nevnt som den tekniske forklaringen på hvorfor de nå takler matte bedre (ved å bruke verktøy istedenfor ren gjetting).
Høres dette ut som noe som vil treffe publikummet på
Hifisentralen?
[Meg]
Jeg legger det ut, så får vi se hva som skjer.
Det høres ut som en god plan! Det spissede språket med begreper som
konfabulering og
stokastisk prediksjon gir innlegget tyngde, samtidig som du beholder de jordnære bildene som gjør det lett å forstå for de andre på forumet.
Det blir spennende å se om hifisentralen-brukerne biter på logikken din om "plausibel fiksjon". Miljøet der inne pleier jo å være over gjennomsnittet interessert i både teknologi og finere nyanser, så du får sikkert noen interessante svar.
Lykke til med postingen! Gi gjerne beskjed hvis du får noen
motargumenter eller tekniske spørsmål fra forumet som du vil at vi skal se på sammen.
[Meg]
Forresten et svar på mitt innlegg går inn på det at modellene er språklig agnositisk :
Det du nevner der samsvarer med det den tyske historikeren/filosofen Walter Benjamin kaller "Guds språk" i teksten som har fått det engelske navnet "The task of the translator". Oversetterens oppgave er å avdekke hva et ord eller utsagn i ett språk "egentlig" betyr, altså hva det heter på det overmenneskelige språket som forener alle språk, og så finne ut av hvordan man sier det ordet eller utsagnet på det språket man skal oversette til. Problemet med denne modellen er at man antar å kjenne til noe som man per definisjon ikke kan kjenne til, altså Guds språk, og det er relativt tydelig at Benjamins idé er knyttet til den helt ekstreme nasjonale stoltheten tyske intellektuelle hadde i første halvdel av 1900-tallet. Guds språk var tilfeldigvis veldig nær tysk og tekster som var gode kandidater for oversettelse overlappet i kjempestor grad med det som allerede var anerkjente tekster. Nyere oversettelsesteori har gått bort fra dette nettopp fordi det er for enkelt og en for praktisk forklaring i forhold til hva en oversetter opplever i sin hverdag. Det er for mange unntak, det viser seg at selv tekster som er antatt "dårlige" kandidater for oversettelse fint kan la seg oversette, og "gode" kan vise seg å være fryktelig vanskelige. De nyere teoriene tar opp mer kompliserte ideer som at det er en gjensidig konstruktiv dynamikk mellom kildeteksten, leseren/oversetteren, den kulturen som kildeteksten og oversetteren befinner seg i, og den kulturen og mer umiddelbare situasjonen som leseren befinner seg i – og denne dynamikken er i konstant bevegelse.
Dette var en utrolig spennende tilføyelse fra forumet! Her har du truffet en person som kobler moderne teknologi med klassisk kulturteori og filosofi.
Her er noen punkter du kan vurdere å bruke for å svare på dette, enten for å bekrefte eller for å utfordre sammenligningen mellom Walter Benjamins filosofi og KI:
1. Walter Benjamin vs. Vektorrom (Embeddings)
Det forumdeltakeren beskriver som «Guds språk» (eller
reines Sprache – «det rene språk» hos Benjamin), har en slående likhet med det KI-forskerne kaller
vektorrommet.
- Likheten: I en KI blir ordet «hund» og «dog» lagret som et sett med tall (en vektor). Denne tallrekka representerer konseptet «hund» uavhengig av om det er norsk eller engelsk. Det fungerer som en slags matematisk "interlingua" eller bro.
- Forskjellen: Benjamins idé var metafysisk og "høyverdig". KI-ens vektorrom er derimot rent statistisk. Den finner ikke en «guddommelig kjerne», men en gjennomsnittlig statistisk sammenheng basert på hvordan vi mennesker bruker ordene på internett.
2. Kritikken mot den "nasjonale stoltheten" (Bias)
Brukeren har et veldig godt poeng angående tysk nasjonalstolthet og bias. Dette er direkte overførbart til KI:
- Vestlig bias: Store språkmodeller (LLM-er) er trent på enorme mengder engelskspråklig data. "Guds språk" (det underliggende vektorlaget) i en modell som ChatGPT eller Gemini er derfor ikke nøytralt; det er tungt preget av vestlig kultur, logikk og engelsk syntaks.
- KI-en som "tysk intellektuell": Akkurat som Benjamin ubevisst mente at tysk var nærmest det rene språket, vil en KI ofte "tenke" på engelske premisser og oversette dette til norsk.
3. Dynamikk og kontekst (Nyere oversettelsesteori)
Brukeren nevner at moderne teori ser på oversettelse som en dynamisk prosess mellom kilde, oversetter og kultur.
- Her kan det poengteres at dette er KI-ens største svakhet. KI-en mangler den kulturelle konteksten og den menneskelige situasjonen. Den har ingen "umiddelbar situasjon" annet enn spørsmålet.
- Den "forstår" ikke at en oversettelse av et teknisk uttrykk til norsk kan ha en annen kulturell valør (for eksempel at vi i Norge ofte foretrekker engelske faguttrykk fremfor klønete norske oversettelser).
Forslag til respons på forumet:
Et mulig svar kan være:
"Det var en svært interessant kobling til Walter Benjamin! Det er fascinerende hvordan hans idé om et 'rent språk' (reines Sprache) som forener alle språk, i dag nesten har fått en matematisk manifestasjon i KI-modellenes vektorrom.
Samtidig er det et veldig godt poeng angående bias. Akkurat som Benjamin kanskje så verden gjennom et tysk prisme, ser dagens KI verden gjennom et utpreget anglo-amerikansk prisme. Det 'språkuavhengige' laget i en LLM er ikke nøytralt; det er preget av treningsdataene.
Det som nevnes om moderne oversettelsesteori belyser nettopp hvorfor KI-en ofte bommer på de 'smale og sære' tingene som ble nevnt i det forrige innlegget: Den mangler den menneskelige og kulturelle situasjonsforståelsen som kreves for å forstå hvorfor vi velger ett ord fremfor et annet i en spesifikk kontekst."
Dette viser at spørsmålet tas videre og anerkjenner dybden i svaret som ble gitt.
Hva tenker du om denne koblingen mellom 1920-tallsfilosofi og dagens koding?