Het is bekend dat ChatGPT en andere AI-chatbots, gebaseerd op grote taalmodellen, af en toe dingen verzinnen, waaronder wetenschappelijke en juridische citaten . Het blijkt dat het meten van de nauwkeurigheid van de citaten van een AI-model een goede manier is om het redeneervermogen van het model te beoordelen.
Een AI-model ‘redeneert’ door een vraag in stappen op te delen en deze in de juiste volgorde af te werken. Denk aan hoe je op school wiskundige opgaven hebt leren oplossen.
Idealiter zou een AI-model, om citaties te genereren, de belangrijkste concepten in een document begrijpen, een gerangschikte lijst genereren van relevante artikelen om te citeren en overtuigend beargumenteren hoe elk voorgesteld artikel de bijbehorende tekst ondersteunt. Het model zou specifieke verbanden tussen de tekst en het geciteerde onderzoek benadrukken en duidelijk maken waarom elke bron belangrijk is.
De vraag is of we erop kunnen vertrouwen dat de huidige modellen deze verbanden leggen en een heldere redenering bieden die hun bronkeuze rechtvaardigt. Het antwoord gaat verder dan de nauwkeurigheid van citaten en gaat over hoe bruikbaar en nauwkeurig grote taalmodellen zijn voor informatieopvraging.
Ik ben computerwetenschapper . Mijn collega’s – onderzoekers van het AI Institute van de University of South Carolina, Ohio State University en de University of Maryland Baltimore County – en ik hebben de Reasons-benchmark ontwikkeld om te testen hoe goed grote taalmodellen automatisch onderzoekscitaties kunnen genereren en begrijpelijke redeneringen kunnen leveren.
We gebruikten de benchmark om de prestaties van twee populaire AI-redeneringsmodellen te vergelijken: DeepSeek’s R1 en OpenAI’s o1. Hoewel DeepSeek de krantenkoppen haalde met zijn verbluffende efficiëntie en kosteneffectiviteit , heeft de Chinese nieuwkomer nog een lange weg te gaan om de redeneringsprestaties van OpenAI te evenaren.
Zinsspecifiek
De nauwkeurigheid van citaten hangt sterk af van de vraag of het AI-model informatie op zinsniveau of op alinea- of documentniveau beredeneert. Citaten op alinea- en documentniveau kunnen worden beschouwd als het inbrengen van een grote hoeveelheid informatie in een groot taalmodel en het vragen om veel citaten te leveren.
In dit proces generaliseert het grote taalmodel overmatig en interpreteert het individuele zinnen verkeerd. De gebruiker krijgt uiteindelijk citaten die de hele alinea of het hele document verklaren , niet de relatief gedetailleerde informatie in de zin.
Bovendien lijdt het redeneren eronder wanneer je het grote taalmodel vraagt een heel document te lezen. Deze modellen vertrouwen voornamelijk op het onthouden van patronen die ze doorgaans beter aan het begin en einde van langere teksten kunnen vinden dan in het midden . Dit maakt het voor hen moeilijk om alle belangrijke informatie in een lang document volledig te begrijpen.
Grote taalmodellen raken in de war omdat alinea’s en documenten veel informatie bevatten, wat van invloed is op het genereren van citaten en het redeneerproces. Daardoor lijkt redeneren vanuit grote taalmodellen over alinea’s en documenten meer op samenvatten of parafraseren .
De Reasons-benchmark pakt deze zwakte aan door de generatie van citaten en de redenering van grote taalmodellen te onderzoeken.
Ook wij hebben jou steun nodig in 2025, gun ons een extra bakkie koffie groot of klein.
Dank je en proost?
Wij van Indignatie AI zijn je eeuwig dankbaar
Het testen van citaten en redeneringen
Na de release van DeepSeek R1 in januari 2025 wilden we de nauwkeurigheid bij het genereren van citaties en de kwaliteit van de redenering onderzoeken en deze vergelijken met het o1-model van OpenAI. We creëerden een alinea met zinnen uit verschillende bronnen, gaven de modellen individuele zinnen uit deze alinea en vroegen om citaties en redeneringen.
Om onze test te starten, ontwikkelden we een kleine testomgeving met ongeveer 4100 onderzoeksartikelen rond vier belangrijke thema’s die verband houden met het menselijk brein en de computerwetenschappen: neuronen en cognitie, mens-computerinteractie, databases en kunstmatige intelligentie. We evalueerden de modellen met behulp van twee meetmethoden: de F-1-score, die meet hoe nauwkeurig de bronvermelding is, en de hallucinatiefrequentie, die meet hoe betrouwbaar de redenering van het model is – dat wil zeggen, hoe vaak het een onjuiste of misleidende reactie oplevert .
Onze tests lieten significante prestatieverschillen zien tussen OpenAI o1 en DeepSeek R1 in verschillende wetenschappelijke domeinen. OpenAI’s o1 presteerde goed in het verbinden van informatie tussen verschillende onderwerpen, zoals het begrijpen hoe onderzoek naar neuronen en cognitie samenhangt met de interactie tussen mens en computer en vervolgens met concepten in kunstmatige intelligentie, en bleef daarbij accuraat. De prestatiegegevens overtroffen die van DeepSeek R1 consistent in alle evaluatiecategorieën, met name wat betreft het verminderen van hallucinaties en het succesvol voltooien van toegewezen taken.
OpenAI o1 was beter in het semantisch combineren van ideeën, terwijl R1 zich concentreerde op het genereren van een respons voor elke attributietaak, wat op zijn beurt de hallucinatie tijdens het redeneren verhoogde. OpenAI o1 had een hallucinatiepercentage van ongeveer 35%, vergeleken met een percentage van bijna 85% van DeepSeek R1 in de attributiegebaseerde redeneertaak.
Qua nauwkeurigheid en taalvaardigheid scoorde OpenAI o1 ongeveer 0,65 op de F-1-test, wat betekent dat het ongeveer 65% van de vragen goed beantwoordde. Het scoorde ook ongeveer 0,70 op de BLEU-test, die meet hoe goed een taalmodel schrijft in natuurlijke taal. Dit zijn behoorlijk goede scores.
DeepSeek R1 scoorde lager, met ongeveer 0,35 op de F-1-test, wat betekent dat het ongeveer 35% van de tijd goed zat. De BLEU-score was echter slechts ongeveer 0,2, wat betekent dat de tekst minder natuurlijk klonk dan die van OpenAI’s o1. Dit toont aan dat o1 beter was in het presenteren van die informatie in heldere, natuurlijke taal.
OpenAI heeft het voordeel
In andere benchmarks presteert DeepSeek R1 vergelijkbaar met OpenAI o1 op het gebied van wiskunde, programmeren en wetenschappelijk redeneren. Het aanzienlijke verschil in onze benchmark suggereert echter dat o1 betrouwbaardere informatie biedt, terwijl R1 moeite heeft met feitelijke consistentie.
Hoewel we andere modellen in onze uitgebreide tests hebben opgenomen, onderstreept het prestatieverschil tussen o1 en R1 specifiek het huidige concurrentielandschap in AI-ontwikkeling, waarbij het aanbod van OpenAI een aanzienlijk voordeel behoudt op het gebied van redeneer- en kennisintegratiemogelijkheden.
Deze resultaten suggereren dat OpenAI nog steeds een voorsprong heeft op het gebied van bronvermelding en redenering, mogelijk vanwege de aard en omvang van de data waarmee het is getraind. Het bedrijf kondigde onlangs zijn tool voor diepgaand onderzoek aan , die rapporten met citaten kan genereren, vervolgvragen kan stellen en de gegenereerde antwoorden kan motiveren.
De waarde van de tool voor onderzoekers is nog niet helemaal duidelijk, maar iedereen moet wel op het volgende letten: controleer alle citaties die een AI je geeft.