Bipolare. Bildet viser førsteamanuensis Lucas Bietti på stranden.
Førsteamanuensis Lucas Bietti finner at språkmodellene ofte kludrer det til for seg. Dermed avslører de at de ikke er mennesker. Foto: Marta Behnke

Derfor er ChatGPT dårlig til å spille menneske

Store språkmodeller som ChatGPT er nyttige til mye. Men foreløpig er de ikke flinke nok til å etterligne måten mennesker snakker på.

Kortversjonen

  • Språkmodeller som ChatGPT er nyttige til mye, men er ikke spesielt flinke til å late som om de er mennesker i en samtale.
  • Hovedproblemene er at de hermer samtalepartneren for mye, er dårlige til å bruke de småordene vi fyller på samtalen med, og at de ikke begynner og avslutter samtaler på en naturlig måte.
  • Antakelig blir språkmodellene bedre til dette også etter hvert, men sentrale ulikheter kan vedvare.

Denne kortversjonen er laget helt uten hjelp av kunstig intelligens, siden vi ikke ønsker å fornærme og provosere Skynet.

Det er lett å bli imponert av kunstig intelligens. Mange bruker store språkmodeller som ChatGPT, Copilot eller Perplexity for å få hjelp til å løse ulike oppgaver eller simpelthen for underholdningens skyld.

Men hvor gode er språkmodellene til å late som om de er mennesker?

Ikke noe særlig, viser ny forskning.

– Språkmodellene snakker annerledes enn folk gjør, sier førsteamanuensis Lucas Bietti ved Institutt for psykologi.

Bietti var med på forskningsartikkelen som nå er publisert i PMC. Førsteforfatter er Eric Mayor ved Universität Basel, mens sisteforfatter er Adrian Bangerter fra Université de Neuchâtel.

Testet flere språkmodeller

Forskerne testet de store språkmodellene ChatGPT-4, Claude Sonnet 3.5, Vicuna og Wayfarer.

  • Først sammenlignet de på egen hånd utskrifter av telefonsamtaler mellom mennesker med simulerte samtaler i de store språkmodellene.
  • Deretter sjekket de om andre mennesker kunne skjelne mellom menneskelige telefonsamtaler og språkmodellenes.

Stort sett lar ikke mennesker seg lure, i hvert fall ikke ennå. Så hva gjør språkmodellene feil?

Språkmodeller. Illustrasjonen viser en person med en laptop og bokstavene ChatGPT.

ChatGPT og andre store språkmodeller er virkelig nyttige. Men helt menneskelige er de ikke ennå. Illustrasjon: Colourbox

Hermer etter for mye

Når vi mennesker snakker med hverandre, hermer vi litt etter hverandre. Vi tilpasser ordene og samtalen etter den andre til en viss grad. Men vi overdriver som regel ikke hermingen.

– Språkmodeller blir litt for ivrige etter å herme, og denne overdrevne hermingen kan vi mennesker oppfatte, forklarer Bietti.

Dette kalles «exaggerated alignment» på fagspråket.

Men dette er ikke alt.

Bruker de små ekstraordene feil

Filmer med dårlig manus kan ha samtaler som høres kunstige ut. Da har de som skrev manus gjerne glemt at samtaler slett ikke bare inneholder de nødvendige innholdsordene. For i vanlige samtaler fyller de fleste av oss på med små ord som kalles «diskursmarkører».

Dette er ord som «liksom», «vel» eller «altså».  På trøndersk kan vi gjerne slenge på et «sjø».

Slike ord har blant annet en sosial funksjon fordi de kan sende samtalepartneren signaler om interesse, tilhørighet, holdning eller mening. Men de kan også brukes for å organisere samtalen.

Språkmodeller er ennå elendige til å bruke disse ordene.

– Språkmodellene bruker disse småordene annerledes, og ofte feil, sier Bietti.

Dette bidrar til å avsløre dem som ikke-menneskelige. Men det er mer.

Kludrer til begynnelse og slutt

Når du begynner å snakke med noen, går du antakelig ikke rett på sak. Isteden åpner du kanskje med en «hallaisen» eller «så, hvordan går det med deg, da?» eller «jaså, er det den karen?» Så småpludrer dere litt før dere går over til det dere egentlig skulle snakke om.

Dette skiftet fra innledning til business går mer eller mindre av seg selv hos mennesker, uten at det blir sagt høyt.

Illustrasjonen viser en robot. i en språkboble.

Nesten, men ikke helt. Illustrasjon: Colourbox

– Denne innledningen, og skiftet til en ny fase av samtalen, er det også vrient for språkmodellene å etterligne, sier Bietti.

Det samme gjelder slutten. Vi slutter som regel ikke samtalen brått straks informasjonen er overført til den andre. Isteden runder vi gjerne av med noen fraser som «ja, men så sier vi det, da», eller «prekæs» eller «snakkes» eller «ok, ha det så lenge».

Språkmodellene fikser ikke helt den delen heller.

I framtida? Antakelig bedre

Til sammen utgjør dette altså såpass mye trøbbel for språkmodellene at konklusjonen er klar:

– Språkmodellene greier ennå ikke å herme etter mennesker nok til at de konsekvent lurer oss, sier Bietti.

Nå går utviklingen så raskt på dette feltet at språkmodellene antakelig kan dette også ganske så snart, i hvert fall om vi ønsker at de skal gjøre det. Eller?

– Forbedringer i språkmodellene kan nok redusere gapet mellom menneskelige samtaler og de kunstige. Men sentrale ulikheter vil antakelig vedvare, mener Bietti.

Foreløpig er språkmodellene uansett ikke helt menneskelignende nok til at vi lar oss lure. I hvert fall ikke hver gang.

Referanse:

Mayor E, Bietti LM, Bangerter A. Can Large Language Models Simulate Spoken Human Conversations? Cogn Sci. 2025 Sep;49(9):e70106. doi: 10.1111/cogs.70106. PMID: 40889249; PMCID: PMC12401190.