Diverse OpenAI - sjukt imponerende AI

Harry Stoteles · 28.07.2025

Takk, @coolbiz og @weld77

Hele paperet i tilfelle fler er interessert:

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

Despite widespread adoption, the impact of AI tools on software development in the wild remains understudied. We conduct a randomized controlled trial (RCT) to understand how AI tools at the February-June 2025 frontier affect the productivity of experienced open-source developers. 16 developers...

arxiv.org

Asbjørn · 28.07.2025

Harry Stoteles skrev:
Takk, @coolbiz og @weld77

Hele paperet i tilfelle fler er interessert:

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

Despite widespread adoption, the impact of AI tools on software development in the wild remains understudied. We conduct a randomized controlled trial (RCT) to understand how AI tools at the February-June 2025 frontier affect the productivity of experienced open-source developers. 16 developers...

arxiv.org

Interessant, takk!

Surprisingly, we find that allowing AI actually increases completion time by 19%--AI tooling slowed developers down.

tjua · 28.07.2025

Det er nå, og vil nok vedvare en liten tid (og liten her er mye mindre en en StTing periode). Men jeg tror at, på lik linje med alt annet KI trener til og på, så vil dette fort passere.
Legg til, og her gjetter jeg, at de cyberkriminelle vil ta dette i bruk og utvikle sine modeller rimelig kjapt som blir lagt ut for salg til en rimelig billig penge sammenlignet med prisene de kommersielle techno oligarkene tilbyr
så spørs det når den kunnskapen, og modellene, tilflyter resten av samfunnet. Kanskje ikke like kopier, men mekanismene og metodene kan helt sikkert gjenbrukes til andre formål en ren kriminalitet

Asbjørn · 28.07.2025

Som noen har lagt merke til er jeg noe mindre aktiv her på off-topic i sommer enn tidligere. Det er mest fordi jeg bruker tid på et kode-prosjekt som etterhvert skal opp på GitHub. Det er nokså sære greier, men godt utenfor hva jeg kan forsvare som en «byggetråd» på HFS.

Koden skrives for det meste i standard C (C11/C17) med noen rutiner i assembly (AMD64/x86-64 arkitektur). Jeg bruker CLion IDE, CMake/Ninja build system, og gcc/clang/mvsc/nasm kompilatorer for å kunne kompilere både på Windows og Linux. Det er noen år (ca 30) siden jeg skrev C-kode på årntli’, så jeg er nok litt rusten i faget, men ikke helt grønn.

Det jeg opplever er at GitHub Copilot og dens auto-complete i CLion bare er irriterende. Den kommer med forslag som mest avsporer tankerekken og fører til at jeg må bruke tid på å rette i stedet for å formulere det jeg allerede har tenkt. Omtrent like irriterende som gamle Clippy, eller som når Copilot tilbyr seg å «hjelpe» meg med å formulere en email eller et Word-dokument. Den kan jo ikke vite hva jeg har tenkt å si, så gå vekk, please.

Derimot opplever jeg at Google Gemini 2.5 Pro nå er på et nivå som kan være nyttig. Ikke til å generere kode, selv om den gjerne vil, men som en «bollplank» og diskusjonspartner i steget før, hvor man prøver å klekke ut datastrukturer og algoritmer for å løse oppgaven. Hvis jeg beskriver et konkret problem, gir tilstrekkelig kontekst, beskriver hvordan jeg tenker å løse det, og spør Gemini om hva den synes om det, kommer det ofte nyttige tilbakemeldinger om alternative måter å løse det på, gotchas jeg ikke har tenkt på, spesialtilfeller som må håndteres, osv. Når den kommer med kodesnutter som forslag leser jeg det mest som en illustrativ presisering av hva den forsøker å forklare, ikke som noe man kan copy/paste til koden. Så kan man fundere litt mer, gjenta prosessen en gang eller to, og ende opp med noe langt bedre enn det første utkastet.

Det er på et nivå sammenlignbart med å diskutere løsningsskisser med en noenlunde pålest kollega. Ikke sånn at man blir «awestruck» av at den kan og vet «alt», noen ganger tar den helt feil, er sjelden så presis at man kan bruke forslagene direkte, men ganske ofte nyttig som en del av prosessen. Og det er jo ganske imponerende i seg selv.

tjua · 29.07.2025

Litt om konsekvensene av KI som kan komme ganske så kjapt

TCS: India's AI-driven tech firings could derail middle class dreams

India's largest IT services company has announced it will reduce its workforce by 2% as it gets future ready for AI.

www.bbc.com

kan være alvorlig for de samfunn som har stor s/w industri.. ihvertfall

weld77 · 29.07.2025

tjua skrev:
Litt om konsekvensene av KI som kan komme ganske så kjapt

TCS: India's AI-driven tech firings could derail middle class dreams

India's largest IT services company has announced it will reduce its workforce by 2% as it gets future ready for AI.

www.bbc.com

kan være alvorlig for de samfunn som har stor s/w industri.. ihvertfall

Tja at menial jobs (og de er det ganske mange av innen IT) kan automatiseres bort overrasker meg ikke. Men den nåværende generasjonen av LLMs er ikke i nærheten av å kunne erstatte faktiske programvareutviklere og jeg har en ganske tung følelse av at fascinasjonen for dette er økende jo mindre man kan om programmering av faktiske peogrsmvaresystemer som skal brukes til noe. Å kunne generere noen kodelinjer fra et prompt og løse temmelig stiliserte og snevert definere problemer er imponerende nok men det er ikke det slaget faktisk står. Selv tilsynelatende enkle ting har titusenvis av linjer kode. Som et fun fact så er referanseimplementasjonen for å beregne triggonometiske funksjoner - tilsynelatende en triviell oppgave - et par tusen linjer c-kode som er optimert i huet og rævva over tiår.

For et lekepeosjekt på gutterommet er slikt uvesentlig selvsagt - i den virkelige verden not so much. Har er par på jobben som er helt ekstatiske for chat-gpt sine kodeevner. Ingen av de vet hva forskjellen på en int og en long er for å si det slik.

tjua · 29.07.2025

weld77 skrev:
Tja at menial jobs (og de er det ganske mange av innen IT) kan automatiseres bort overrasker meg ikke. Men den nåværende generasjonen av LLMs er ikke i nærheten av å kunne erstatte faktiske programvareutviklere og jeg har en ganske tung følelse av at fascinasjonen for dette er økende jo mindre man kan om programmering av faktiske peogrsmvaresystemer som skal brukes til noe. Å kunne generere noen kodelinjer fra et prompt og løse temmelig stiliserte og snevert definere problemer er imponerende nok men det er ikke det slaget faktisk står. Selv tilsynelatende enkle ting har titusenvis av linjer kode. Som et fun fact så er referanseimplementasjonen for å beregne triggonometiske funksjoner - tilsynelatende en triviell oppgave - et par tusen linjer c-kode som er optimert i huet og rævva over tiår.

For et lekepeosjekt på gutterommet er slikt uvesentlig selvsagt - i den virkelige verden not so much. Har er par på jobben som er helt ekstatiske for chat-gpt sine kodeevner. Ingen av de vet hva forskjellen på en int og en long er for å si det slik.

Det er vel litt det samme som @Asbjørn også peker på
men dette vil jo ikke vare evig, jeg tror nok at dette overkommes relativt raskt. Det blir fort en kost/nytte med utdanning/opplæring av de menneskelige faktorene (som også kan inneha noen neste uhåndterlige egenskaper) vs bare la datamaskinene jobbe døgnet rundt, året rundt.
Men som alltid, vanskelig å spå…

Bergfinn · 29.07.2025

Interessant det du nevner @Asbjørn.
Jeg har en kollega som liker å tukle med programmering
og han nevner også Gemini i nyeste versjon som en konstruktiv diskusjonspartner
som korter ned tiden betraktelig på div. utfordringer.
Men som du sier, og også han, spørsmålene må stilles på en og gjennomtenkt og riktig måte
for å få mest mulig utbytte av Gemini.

Han sier at en ny verden har åpenbart seg i hvor mye raskere koder kan fullføres pga Gemini.

For egen del, har jeg ikke filla peiling på hva dere holder på med.

weld77 · 29.07.2025

tjua skrev:
Det er vel litt det samme som @Asbjørn også peker på
men dette vil jo ikke vare evig, jeg tror nok at dette overkommes relativt raskt. Det blir fort en kost/nytte med utdanning/opplæring av de menneskelige faktorene (som også kan inneha noen neste uhåndterlige egenskaper) vs bare la datamaskinene jobbe døgnet rundt, året rundt.
Men som alltid, vanskelig å spå…

Du må huske på at nesten alt du eller jeg kan finne på å spørre om finnes er svar på ett eller annet sted derute. Sånn sett er ikke programmering spesielt. Jeg er ikke god innen faget men har i det minste en ide om hva det går ut på og jeg er tung bruker av stackoverflow og lignende når jeg står fast.

Det er selvsagt mulig at ting tar helt av og disse modellene blir genuint dritsmarte men det er greit å huske på hva de faktisk er og det er språkgeneratorer. Det er en enorm forskjell på det å lage noe som er riktig basert på en kjent problemstilling og komme opp med noe genuint nytt. At en statistisk modell skal komme på ny fysikk eller annet som faktisk er korrekt har i alle fall jeg vanskelig for å se hvordan skal foregå - vitenskapelig fremskritt er ikke akkurat at man genererer ca mest sannsynlige neste setning basert på hva som før er sagt.

Som jeg muligens har sagt før så kan man be en slik modell om å lage en parser for SQL eller et programmeringsspråk eller lage en kompilator som implementerer en rekke kjente optimeringer av koden. Dette er info som er fritt tilgjengelig men har en kompleksitet som er langt utenfor noe slikt (parseren til postgresql er vel ca 15000 kodelinjer og en optimerende kompilator er hundretusenvis av kodelinjer) og knapt noe av det som skjer i slik kode er trivielt.

Asbjørn · 29.07.2025

På jobb ser jeg at yngre kolleger har god hjelp av AI-modellene for å få råd og tips. De erfarne, not so much.

Det er også soleklare risikoer der. Vi har en stor software-leverandør som er notorisk for å ta lang tid før du får svar på problemstillinger som meldes inn, og for at svarene som omsider kommer kan være bra arrogante av typen «dette er ikke vårt problem». (Det er ingen stor premie for å gjette hvem dette kan være.)

Plutselig opplevde vi at de ble mistenkelig kjappe og entusiastiske i responsen, type «Kjempebra spørsmål! Dette kan du enkelt løse ved å bruke funksjon X og gjøre Y. Bare si fra hvis det er noe mer du lurer på!» noen få sekunder etter at spørsmålet var sendt inn.

Dessverre viste det seg ganske fort at «funksjon X» rett og slett ikke eksisterte. De hadde f..nmeg koblet en hallusinerende LLM rett på portalen for kundespørsmål og lot den fabulere fritt for å gi inntrykk av hjelpsomme svar. Dette ble eskalert ganske hardt, og snart var de tilbake til sitt normale adferdsmønster, så vidt jeg kan bedømme.

weld77 · 29.07.2025

Asbjørn skrev:
Dessverre viste det seg ganske fort at «funksjon X» rett og slett ikke eksisterte. De hadde f..nmeg koblet en hallusinerende LLM rett på portalen for kundespørsmål og lot den fabulere fritt for å gi inntrykk av hjelpsomme svar. Dette ble eskalert ganske hardt, og snart var de tilbake til sitt normale adferdsmønster, så vidt jeg kan bedømme.

De fleste som har vært i kontakt med en chatbot på en eller annen kundeservice har vel også kjent litt på følelsen som ligger et sted mellom å kvele noen, plaffe noen med med maskingæver eller kutte opp noen, fortrinnsvis den ansvarlige for løsningen, med en sløv og rusten kniv. Eventuelt sag.

morbid · 30.07.2025

Stort contextvindu gir også ganske lav treffsikkerhet, så de er ganske dårlige på å håndtere komplekse problemstillinger og store kodebaser

PederP · 07.08.2025

Why Did Meta Invest Billions in Scale AI?

Meta's $14 billion investment in Scale AI could reshape the future of AI data labeling. What does this mean for AI's evolution?

spectrum.ieee.org

PederP · 09.08.2025

Doctors Horrified After Google's Healthcare AI Makes Up a Body Part That Does Not Exist in Humans

In Google's May 2024 research paper introducing healthcare AI model, Med-Gemini, the AI made up a body part that doesn't exist.

futurism.com

PederP · Onsdag kl 13:11

ChatGPT kan gi tenåringer farlige råd om narkotika, alkohol og selvmord

Ny forskning viser at ChatGPT kan fortelle 13-åringer hvordan de kan bli fulle, skjule spiseforstyrrelser og skrive hjerteskjærende selvmordsbrev til foreldre.

www.forskning.no

PederP · Torsdag kl 12:28

“Bullshit Index” Reveals AI's Indifference to the Truth

Can AI models be trusted? Discover how a "bullshit index" measures their indifference to truth and what it means for users.

spectrum.ieee.org

Asbjørn · Torsdag kl 22:27

Pass the cranberry sauce, this one’s a turkey.

https://edition.cnn.com/2025/08/14/business/chatgpt-rollout-problems

Deres egen hype for bare en uke siden:

OpenAI claims new GPT-5 model boosts ChatGPT to ‘PhD level’

GPT-5's release comes as tech firms continue to compete in an effort to claim the world's most advanced AI.

www.bbc.com

morbid · Torsdag kl 23:06

Apropos koding, her prøver en ganske anerkjent Rust utvikler som tilfeldigvis er Norsk ut en av de bedre kodemodellene til noe annet enn trivielle kodesnutter. tl;dr.. det gikk ikke så bra

MML · Torsdag kl 23:21

Hvorfor tenkte jeg på denne?

- Internett er en flopp!

De siste ukene har leserbrevet "Internett en flopp!" fra Dagens Næringsliv i 1996 gått som en farsott på nettet. Her er historien bak.

www.dn.no

morbid · Fredag kl 09:14

Det er nok ingen flopp, men at alle skal gå på altmanns borgerlønn om et par år fordi ingen lenger har jobb trur jeg ikke så mye på. Det er bra overhypa det opplegget her.

Harry Stoteles · Fredag kl 09:22

Flopp eller ikke - jeg forstår fortsatt ikke hvor gevinsten skal ligge.

MML · Fredag kl 10:44

Harry Stoteles skrev:
Flopp eller ikke - jeg forstår fortsatt ikke hvor gevinsten skal ligge.

Jeg tror at dette vil medføre drastiske endringer for svært mange yrkesgrupper. På hvilken måte er jo noe som er umulig å forutse, men feks venner som er advokater bruker allerede spesialisert AI- tjenester i stort omfang. Hvor mange advokater, skattejurister eller sakbehandlere ol vil det være behov for når GTP 25 foreligger?

Det er spennende å filosofere rundt fremtiden og den famøse spådommen om at internett var en flopp er jo et herlig eksempel. Det var jo faktisk vanskelig å se for seg hva poenget egentlig var med internett på denne tiden. Kan vi nå se for oss et velfungerende samfunn uten? Det er blitt 29 år siden, men siden utviklingen går eksponentielt: hvordan er AI implementert i hverdagen om 15 år?

Harry Stoteles · Fredag kl 10:58

Jeg tror ikke at de yrkesgruppene du nevner, tjener så mye på å bruke LLM-er. Vi ser jo allerede at de som støtter seg til LLM-er tidlig i prosessen ender opp med å tenke mindre og bruker mer tid på oppgavene. I de tilfellene hvor en bruker LLM-en som en samtalepartner ville det nok vært bedre å bruke et menneske som samtalepartner, fordi to hoder tenker, og tenker bedre enn ett. Hvis man ikke har tid til det, så har man for mye å gjøre.

Et hovedproblem med LLM-er er at de fungerer motsatt av menneskelig intelligens. Der mennesket begynner med konseptet, så kan LLM-en ende opp med konseptet til slutt, hvis vi har litt flaks. Tenk på eksempelet @PederP lenker til over:

Google’s healthcare AI made up a body part — what happens when doctors don’t notice?

The basilar ganglia does not exist.

www.theverge.com

Her har LLM-en endt opp på nesten riktig (men feil) konsept, "basilar ganglia", mens et menneske ville begynt med konseptet og bygget resonnementet rundt det.

Advokater, saksbehandlere etc. kan muligens få hjelp i starten av arbeidet og spare tid akkurat der, men så må noen med reell kompetanse og intelligens kontrollere arbeidet nøye før en signerer på det. Alle som har sensurert eksamener eller lengre oppgaver med mye tekst vet at det er en diger jobb, fordi en vet ikke hvilken tenking som ligger til grunn. En må lese og tolke, og det blir ekstra vanskelig om en tenker at maskinen stort sett gjør det riktig, for når teksten står der og har noenlunde fornuftige linjeskift og tegnsetting er det fristende å bare sende det avgårde. Når en skriver sjøl, så vet en at det er fornuft og tenking som ligger til grunn. Når en ikke gjør det, må en passe på at tenkinga kommer inn etter at siste punktum er satt.

MML · Fredag kl 11:29

Helt enig pr i dag, men igjen eksempler på at AI tar feil og hallusinerer har ingen betydning. Hvordan tror du dette vil utvikle seg fremover? Dvs ikke lett for unge folk som skal begynne å tenke på utdanningsretning der man kanskje skal starte på et 5-årig studie om et par år og så ha 45 års yrkeskarriere. Jeg tror fortsatt at mange yrker vil endres radikalt. Uansett vil man forvente at det blir store effektiviseringsgevinster (?) slik at behovet for folk kan endres drastisk.

Harry Stoteles · Fredag kl 11:39

Jeg tror KI i form av språkmodeller (LLM o.l.) og GPT-er tar feil og hallusinerer som en konsekvens av måten de fungerer på. De gir veldig gode svar hvis målet er at det skal se ut som svar mennesker kunne gitt, men veldig dårlige svar hvis målet er at det skal være en eller annen intensjon eller etterrettelighet å spore i det. I jus eller byråkrati er det helt vesentlig at det er noe fornuft som ligger til grunn for rapportene, men det er det ikke i KI. Da må fornuften komme inn på et seinere tidspunkt, og i sum er det da ikke helt sikkert at jobben går noe fortere hvis kvaliteten skal bli den samme.

Er enig i at mange yrker nok blir veldig påvirket av disse verktøyene, men jeg er mindre overbevist om at det er til det bedre. Sånn sett kan både nåværende og fremtidig utbredelse av KI-verktøy i arbeidslivet være et sterkt argument for "tradisjonelle" og "unyttige" universitetsfag, fordi behovet for reell og kritisk tenking skyter i været.

Tweedjakke · Fredag kl 12:04

MML skrev:
Helt enig pr i dag, men igjen eksempler på at AI tar feil og hallusinerer har ingen betydning. Hvordan tror du dette vil utvikle seg fremover?

Harry Stoteles skrev:
I jus eller byråkrati er det helt vesentlig at det er noe fornuft som ligger til grunn for rapportene, men det er det ikke i KI.

KI ser ut til å vera nyttig i form av å vera ei avansert form for fuzzy søking. @MML nemner advokatar, der den spesifikke fagkunnskapen delvis handlar om å kjenna til, og kunne navigera i, førearbeid og rettsavgjerder på ulikt nivå. Eg har ingen problem med å sjå at KI nyttig i ein slik samanheng.

Eg er, som @Harry Stoteles, veldig bekymra for å la KI generera tekst som skal ha betydning. Når vi les ein tekst som er skriven av menneske, har vi ein grunnleggjande tillit til at teksten er skriven i beste meining, og prøver å få fram eit poeng: Eitt eller anna viktig, sjølv om teksten haltar og er imperfekt. LLM er som Psmith, eller Sir Humphrey: han slår oss i bakken med velformulerte setningar.

Eg har merkt det sjølv når eg les (iallfall før KI) student- og elevtekst: I utgangspunktet har eg lett for å vurdera teksten som betre enn han er, fordi eg les teksten i beste meining; dersom eit argument haltar, er det fordi forfattaren ikkje har greidd å formulera seg heilt godt.

Tenk på Sokal-affæren, der fysikaren Alan Sokal fekk publisert ein fullstendig fjollete artikkel (~~lurer på om det var ein slags parodi på Paul Virilio~~, edit: det var visst ikkje det, sjølv om Virilo har vorte kritisert for å misbruka konsept frå fysikk og matematikk) i eit samfunnsvitskapleg tidsskrift, for å bevisa at dei post-strukturalistiske samfunnsvitskapane var søppelfag - og slik oversåg at heile prinsippet for fagfellevurderinga er ein grunnleggjande tru på at forfattaren har noko han vil seia som han tenkjer er viktig, og som han vil diskutera med det fagmiljøet som les tidsskriftet.

Eg har heller ikkje tru på at vi skal kontrollera, og ta ansvar for, KI-skapte tekstar. For meg vert det som dette sjølvkøyrande bilane der sjåføren er forventa å kunne ta over på momangen dersom trafikksituasjonen nærmar seg farleg.

Harry Stoteles · Fredag kl 12:13

Tweedjakke skrev:
å kjenna til, og kunne navigera i, førearbeid og rettsavgjerder på ulikt nivå. Eg har ingen problem med å sjå at KI nyttig i ein slik samanheng.

Jeg er forsiktig pessimist også i sånne tilfeller, fordi jeg har brukt chatgpt sjøl. Det er altfor fristende å tro at det som spyttes ut er fornuftig, og så ikke gidde å tenke så mye etterpå. Et ti minutters møte med en kollega gir minst like mye utbytte, men fordelen er at det er tenking involvert i hvert eneste ledd, også det du får igjen fra den andre.

En analogi: Jo mer en er vant til å kjøre til butikken, jo mer ork blir det å gå dit, selv om en har sterke bein og armer og butikken ikke ligger langt unna.

morbid · Fredag kl 15:05

MML skrev:
Helt enig pr i dag, men igjen eksempler på at AI tar feil og hallusinerer har ingen betydning. Hvordan tror du dette vil utvikle seg fremover? Dvs ikke lett for unge folk som skal begynne å tenke på utdanningsretning der man kanskje skal starte på et 5-årig studie om et par år og så ha 45 års yrkeskarriere. Jeg tror fortsatt at mange yrker vil endres radikalt. Uansett vil man forvente at det blir store effektiviseringsgevinster (?) slik at behovet for folk kan endres drastisk.

Utviklingen man har hatt de siste årene har fortrinnsvis vært at man har foret modellene med mer data. Nå er det ikke mer data å ta av, så de forbedringene vi ser nå på f.eks chatgpt 5 er veldig små. Jeg tror ikke arbeidsoppgavene kommer til endre seg radikalt, men at de fleste av oss har fått et nytt verktøy til å utføre jobben vår er utvilsomt riktig..

PederP · Fredag kl 20:05

Asbjørn · Fredag kl 20:38

morbid skrev:
Utviklingen man har hatt de siste årene har fortrinnsvis vært at man har foret modellene med mer data. Nå er det ikke mer data å ta av, så de forbedringene vi ser nå på f.eks chatgpt 5 er veldig små. Jeg tror ikke arbeidsoppgavene kommer til endre seg radikalt, men at de fleste av oss har fått et nytt verktøy til å utføre jobben vår er utvilsomt riktig..

Forbedringer i ChatGPT 5?

Hvis man ekstrapolerer den utviklingen videre til ChatGPT 25 får man… ikke så veldig mye.

https://arxiv.org/pdf/2508.01191

Diverse OpenAI - sjukt imponerende AI

Hi-Fi freak

Rubinmedlem

Hi-Fi freak

Rubinmedlem

Hi-Fi freak

Æresmedlem

Hi-Fi freak

Hi-Fi freak

Æresmedlem

Rubinmedlem

Æresmedlem

Hi-Fi freak

Æresmedlem

Æresmedlem

Æresmedlem

Æresmedlem

Rubinmedlem

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Hi-Fi freak

Æresmedlem

Rubinmedlem