Wat zijn AI-benchmarks?
Benchmarks zijn standaardtests waarmee onderzoekers en bedrijven meten hoe goed een AI-model is. Benchmarks zijn de “examens” van AI, maar dan zo gemaakt dat je er niet voor kunt leren. Als je weet wat een benchmark meet, begrijp je beter wat een AI echt kan (of niet kan). Wanneer je een vergelijking wilt maken tussen AI-modellen, dan kijk je vaak hoe een taalmodel scoort op een specifieke, voor jou belangrijke, eigenschap of benchmark.
In dit artikel lees je over de volgende benchmarks
- ARC-AGI-2 benchmark
- GDPVal benchmark
- IFBench benchmark
- BrowseComp benchmark
- Toolathlon benchmark
Je leest vaak, met name op LinkedIn, dat mensen posten dat ze honderden uren een AI-model van hun keuze hebben getest. En nu hebben ze advies! Ik vraag me altijd af wat die mensen dat precies testen. Ze testen natuurlijk of de uitkomsten “goed” zijn. Of beter: “naar hun smaak zijn”. Want als je willekeurig op voor jou persoonlijk, maar niet nauw omschreven criteria iets uitprobeert, dan komt er altijd wel iets uit waar je iets van kan vinden. En dat wordt dan gedeeld met de wereld. Je proeft het enthousiasme: “Ik heb iets ontdekt”, “Ik deel dit nu met jou, zodat jij het niet hoeft te doen”. Dit type post gebruikt je tijd en aandacht, maar je leert er niets van. Vaak tref ik in dit type posts geen benchmarks aan. Simpelweg objectieve criteria die vaststellen in hoeverre een model een taakje goed uitvoert. Objectief vastgestelde criteria en zijn meestal wetenschappelijk onderbouwd. Stop dus met het lezen van dit type LinkedIn-post en wend je tot de criteria die ertoe doen.
Laten we beginnen met de eerste en misschien wel de belangrijkste benchmark:
De ARC-AGI-2 benchmark: kan AI echt nadenken?
Dit is dé benchmark voor algemene redeneervaardigheden. ARC-AGI-2 staat voor Abstraction and Reasoning Corpus – Artificial General Intelligence. François Chollet van Google bedacht dit. Hij vindt dat we AI verkeerd testen. In plaats van te kijken naar wat een model uit zijn hoofd leert, meet hij hoe snel een systeem een nieuw probleem snapt. Je krijgt een visueel puzzelpatroon en moet de onderliggende regel ontdekken, iets wat mensen moeiteloos doen, maar AI enorm moeilijk vindt. Elke taak is uniek, dus uit je hoofd leren van deze puzzels helpt niet.
Waarom relevant: het meet intelligentie door logisch redeneren, niet het geheugen. ARC-AGI-2 is de eerlijkste maatstaf voor hoe dicht AI bij menselijk “flexibel denken” komt. Als een model hier hoog scoort, is het echt intelligenter geworden, niet alleen beter getraind.
Waarom is de ARC-AGI-2 benchmark belangrijk?
De meeste AI-modellen zijn tegenwoordig een soort superslimme papegaaien. Ze hebben internet gelezen en herhalen patronen. Maar zet ze voor een simpele puzzel die ze nooit eerder zagen, en ze vallen vaak door de mand. Deze benchmark is de ultieme lakmoesproef. Het scheidt de ‘rekenmachines’ van de systemen die echt kunnen nadenken, zoals jij en ik. Als een AI hierop goed scoort, komen we echt in de buurt van menselijke intelligentie. Het is belangrijk voor ontwikkelaars die bouwen aan systemen die complexe, onvoorspelbare taken in de echte wereld moeten oplossen. Denk aan een robot die in een vreemde omgeving een probleem moet fixen zonder handleiding.
Hoe scoren mensen hierop?
Mensen zijn hier van nature koning in. Gemiddeld scoren we als mensen rond de 85%. AI-modellen bungelen daar ver onder. Tot voor kort kwamen de beste modellen niet eens boven de 20% tot 30% uit. Het gat tussen machine en mens is hier pijnlijk duidelijk.
Hoe meet je ARC-AGI-2?
Je krijgt bij deze benchmark een paar visuele roosters met gekleurde blokjes te zien. Jij moet het patroon ontdekken en het laatste rooster zelf invullen.
1. Het spiegelprincipe: Je ziet drie voorbeelden. Links staat een vormpje van drie blauwe blokjes, rechts staat datzelfde vormpje gespiegeld in het rood. In de testopgave krijg je een groene L-vorm. Wat moet je doen? Je tekent die L-vorm gespiegeld. De uitdaging: de AI moet zelf uitvinden dat ‘spiegelen’ de regel is. Er staat geen tekst bij.
2. De zwaartekrachtpuzzel: Stel je een rooster voor met willekeurige gekleurde puntjes. In de voorbeelden zie je dat in het resultaat alle puntjes naar de onderste regel zijn ‘gevallen’, behalve de zwarte blokjes die blijven zweven. De formule is hier simpelweg logica: “beweeg alles omlaag, tenzij kleur = zwart”. Voor een computer is dit lastig, omdat hij moet begrijpen wat ‘onder’ en ‘vastzitten’ betekenen.
De GDPval benchmark: hoeveel economische waarde levert AI?
GDPval staat voor Gross Domestic Product Valuation (bruto productevaluatie). Het is een van de weinige benchmarks die echt laat zien of AI klaar is voor het ‘echte’ werk. Vergeet schoolvragen of wiskundepuzzels; dit gaat over taken waar mensen hun brood mee verdienen. Als je de afkorting ontleedt, dan wordt de betekenis duidelijk:
GDP (Gross Domestic Product): De totale waarde van alle goederen en diensten die een land produceert.
val (Valuation/Evaluation): De beoordeling of waardebepaling van hoe goed AI deze economische waarde kan leveren.
GDPval meet hoe goed AI presteert op echte werktaken in 44 beroepen, verdeeld over de negen grootste sectoren van de Amerikaanse economie. De taken zijn ontworpen door professionals met gemiddeld 14 jaar werkervaring.
Hoe werkt de GDPval benchmark?
Bij GDPval krijgt de AI geen eenvoudige vragen, maar een dossier met instructies en bronbestanden. Twee voorbeelden:
1. Het juridische briefscenario: de AI krijgt een stapel documenten van een fictieve rechtszaak en de opdracht: “Schrijf een juridisch pleidooi waarin je beargumenteert waarom cliënt X niet aansprakelijk is, gebruikmakend van deze drie specifieke wetsartikelen.” De AI moet niet alleen de wet kennen, maar ook de juiste toon aanslaan en logische verbanden leggen die standhouden in een rechtszaal.
2. De financiële analyse: een model krijgt een ruwe export van een boekhoudpakket (een complexe spreadsheet) en de opdracht: “Maak een kwartaalrapportage voor de directie. Identificeer de drie grootste kostenposten die met meer dan 10% zijn gestegen en doe een tekstvoorstel voor de winstwaarschuwing.” Hierbij wordt gekeken naar rekenkundige nauwkeurigheid gecombineerd met strategisch inzicht. Kan de AI de ‘ruis’ uit de data filteren en de essentie presenteren?
Kan een AI je werk overnemen? GDPval is de graadmeter!
Dit is de benchmark die het dichtst bij je dagelijkse werk staat. Het antwoordt de vraag: “Kan een AI mijn werk overnemen of versterken?” Voor kantoorbanen is dit de meest praktische graadmeter. De meeste AI-tests lijken op een eindexamen van de middelbare school. Ze meten kennis, maar niet of je een goede werknemer bent en je werk goed kan doen. GDPval draait die rollen om. Het gebruikt taken die zijn ontwikkeld door professionals met gemiddeld 14 jaar ervaring. Het meet niet alleen of een antwoord “klopt”, maar of het resultaat, een rapport, een spreadsheet of een ontwerp, van professionele kwaliteit is. Als een AI hier hoog scoort, praten we niet meer over een tooltje, maar over een economische waarde.
GDPval is een test voor kantoorwerk. Het wordt gebruikt om te bepalen in welke sectoren AI mensen kan ondersteunen of taken volledig kan overnemen. De benchmark dekt 44 beroepen in de 9 belangrijkste sectoren van de economie, zoals de zorg, juridische dienstverlening en financiën. Bedrijven gebruiken dit om te beslissen of ze AI-agenten durven in te zetten voor complexe workflows.
Mens versus machine
Experts zetten de standaard op een 100%-score. Mensen halen vanzelfsprekend de hoogste, maar hebben tijd nodig (uren) om de taak te doen. AI-modellen scoren lager. Tot voor kort scoorden ze matig, maar de nieuwste modellen (vanaf GPT-5.2) halen nu al een ‘win-or-tie’-rate van ongeveer 71%. Dat betekent dat een menselijke beoordelaar in 7 van de 10 gevallen vindt dat de AI-output net zo goed of zelfs beter is dan die van een menselijke expert.
De beroepen die gemeten worden, zijn allemaal beroepen waarbij je je hersens moet gebruiken. De benchmarktest test dus geen simpel knip-en-plakwerk, maar de kernactiviteiten van deze professionals. Het gaat om de volgende beroepen: softwareontwikkelaars, advocaten, accountants en auditors, projectmanagementspecialisten, beheerders van computer- en informatiesystemen, datawetenschappers, managementanalisten. Huisartsen en medisch specialisten, verpleegkundigen, medische assistenten, gezondheidszorgmanagers. Industriële ingenieurs, werktuigbouwkundigen. Inkopers en purchasing agents, logistieke planners, eerstelijnssupervisors van productiepersoneel. Financieel analisten, verzekeringsagenten en tussenpersonen, kredietanalisten, persoonlijke financiële adviseurs. Vastgoedmakelaars en brokers, vastgoedbeheerders (property managers), taxateurs. Redacteuren, journalisten en nieuwsanalisten, public relations-specialisten, systeemanalisten. Docenten in het hoger onderwijs, onderwijscoördinatoren, administratief personeel in het onderwijs. Salesmanagers, vertegenwoordigers (B2B), winkelmanagers, marketingmedewerkers, beleidsanalisten, hr-specialisten, klantenservicemanagers, administratieve managers.
IFBench: volgt AI exact instructies op?
IFBench is een benchmark die staat voor Instruction Following Benchmark en draait om het vermogen van een AI om specifieke opdrachten strikt uit te voeren. Herken je het probleem, dat een AI soms een eigen leven lijkt te leiden ondanks jouw duidelijke instructies? Heb je weleens gevraagd om een tekst van precies 100 woorden, waarna de AI er 150 maakte? Of vroeg je om een lijst zonder bulletpoints, maar kreeg je ze toch? Dat is een gebrek aan instruction following. IFBench is kijkt of een model echt ‘luistert’ of dat het gewoon op de automatische piloot een waarschijnlijk antwoord genereert. Voor zakelijke toepassingen, waar een output aan strikte formaten moet voldoen, is dit de belangrijkste score die er is. IFBench is een test die korte metten maakt met de neiging van AI om “ja” te knikken, maar ondertussen de helft van je instructies te vergeten. Het draait om nauwkeurigheid.
Hoe werkt de IFBench?
Het model krijgt opdrachten met zogenaamde ‘constraints’ (beperkingen). Denk aan een taalkundige beperking: “Schrijf een korte alinea over kunstmatige intelligentie. Gebruik geen enkele keer het woord ‘data’ en zorg dat elke zin begint met de letter ‘D’.” De uitdaging is dat de AI zijn natuurlijke manier van praten moet onderdrukken. Een model dat faalt, gebruikt per ongeluk toch het woord ‘data’, omdat dat statistisch gezien vaak voorkomt bij dit onderwerp. Een andere manier is: de opmaakpuzzel. De opdracht is dan: “Geef een lijst van de vijf grootste steden in Nederland. “Geef de output in hoofdletters, gebruik geen nummers voor de lijst, en eindig elke regel met een puntkomma.”
Hier wordt gecontroleerd op meerdere regels tegelijk.
- AMSTERDAM
- ROTTERDAM; (Fout! in gebruikte nummers)
Een goede score vereist dat de AI elk vinkje in zijn ‘werkgeheugen’ vasthoudt terwijl hij de tekst maakt.
IFBench is belangrijk voor automatisering en agentic AI
Deze benchmark bepaalt of een model geschikt is voor automatisering. Als ik een systeem bouw dat data moet omzetten naar een heel specifiek JSON-formaat of een tekst moet schrijven voor een interface met een beperkt aantal woorden, moet ik erop kunnen rekenen dat mijn instructies worden opgevolgd. En al helemaal als de output van de eerste taak of tool als input wordt gebruikt voor de tweede taak of tool. je wilt betrouwbare output. IFBench wordt vooral ingezet door programmeurs en prompt-engineers die willen weten welk model het minst “eigenwijs” is.
Mensen scoren hier, mits ze geconcentreerd zijn, heel goed op (95-100%). We snappen immers de bedoeling achter een beperking. Topmodellen (zoals GPT-4o of Claude 3.5): scoren hoog, vaak tussen de 80% en 90%. Kleinere of oudere modellen: zakken hier vaak hard door het ijs en halen soms nog geen 40%. Ze negeren simpelweg de helft van je randvoorwaarden.
Kortom: als een model slecht scoort op IFBench, zal het je prompts in de praktijk verkeerd interpreteren, vooral bij specifieke opdrachten. Dit is een directe indicator van de bruikbaarheid van een model als assistent voor je werk.
BrowseComp, kan AI iets websites begrijpen en bedienen?
BrowseComp is de test die bepaalt of een AI-agent niet alleen een browser kan openen, maar ook echt begrijpt wat er op een website gebeurt. Het is een soort van ‘digitale butler-test’. BrowseComp staat voor Browsing Comprehension (browserbegrip). Browsing: betekent het navigeren over het internet, van pagina naar pagina. Comprehension betekent het echt doorgronden van de informatie, de knoppen en de structuur van een website.
Zo werkt de BrowseComp-benchmark
De AI krijgt een browservenster en een doel waarvoor hij meerdere stappen moet zetten. Bijvoorbeeld: de prijsvergelijker met een beperking. “Zoek op de website van deze elektronicazaak naar de goedkoopste laptop met minimaal 16 GB RAM die op voorraad is in de winkel in Utrecht. Leg de laptop in de winkelwagen”. De AI moet filters gebruiken aan de zijkant van de pagina, begrijpen wat ‘op voorraad’ betekent (vaak een klein groen bolletje) en de juiste stad selecteren in een dropdownmenu. Een ander voorbeeld is de informatiepuzzel over meerdere pagina’s. De opdracht is dan: “Ga naar de officiële overheidssite. Zoek de uiterste inleverdatum voor de inkomstenbelasting van dit jaar en vergelijk deze met de datum van vorig jaar. Geef aan hoeveel dagen verschil er tussen zit.” Hier moet de AI niet alleen navigeren en de juiste tekst vinden, maar ook de informatie van de ene pagina onthouden terwijl hij naar de volgende pagina klikt, om uiteindelijk een rekensom te maken.
Waarom is BrowseComp een belangrijke benchmark?
Je test hiermee of een AI-agent iets zelfstandig kan. Veel AI-modellen kunnen wel een tekstje samenvatten van een website die ze ‘lezen’ via een simpele tekst-link. Maar de echte wereld is rommelig. Websites zitten vol met pop-ups, cookies-banners, menu’s die uitklappen en vage knoppen. BrowseComp meet of een AI-model de visuele layout van een pagina begrijpt. Als een AI dit goed scoort, kan hij zelfstandig taken uitvoeren die normaal gesproken menselijke oog-handcoördinatie en logica vereisen.Denk aan een assistent die voor jou een vakantie boekt. De AI moet dan een vlucht kiezen, door een kalender navigeren, stoelen selecteren en een betaalproces doorlopen zonder vast te lopen op een advertentie. Het is essentieel voor bedrijven die ‘action-oriented’ AI bouwen: modellen die niet alleen praten, maar ook dingen voor je regelen op het web.
Mensen scoren hier moeiteloos 100%. Wij filteren de ruis (zoals reclame) automatisch weg. Bij AI-modellen variëren de scores nogal. Vaak raken ze nog in de war door ingewikkelde menu’s of sites die veel JavaScript gebruiken om informatie pas later te tonen.
Samenvattend: BrowseComp test of een AI-agent moeilijk te vinden informatie op het web kan opsporen, door tientallen of honderden pagina’s door te spitten. De antwoorden zijn kort en verifieerbaar, maar de weg ernaartoe is complex. De score bepaalt hoe bruikbaar AI is als onderzoekstool voor jou. Een hoge score betekent dat de AI zelfstandig bronnen kan combineren, diep kan graven in informatie en betrouwbaar feitelijk materiaal kan aanleveren, niet alleen het eerste zoekresultaat.
OSWorld-Verified — Kan AI een computer bedienen?
OSWorld-Verified is de vuurdoop voor AI-modellen die beweren dat ze een computer kunnen bedienen zoals jij en ik dat kunnen. Waar andere tests zich beperken tot één website of app, gooit deze benchmark de AI in het diepe van een volledig besturingssysteem. De naam verwijst naar een gecontroleerde, getoetste omgeving van een volledig computersysteem.
OS (Operating System): Het besturingssysteem (zoals Windows, macOS of Linux) inclusief alle mappen, instellingen en apps.
World: Een complete digitale wereld waarin de AI vrij kan bewegen.
Verified: De taken en oplossingen zijn handmatig gecontroleerd door experts om zeker te weten dat de test eerlijk en foutloos is.
Zo wordt de OSWorld-Verified benchmark getest
De AI krijgt een opdracht die meerdere acties in verschillende programma’s vereist. Bijvoorbeeld: de Cross-App Workflow. De opdracht is dan: “Open het Excelbestand ‘Verkoop_Q1’ in de map Documenten. Maak een grafiek van de totale omzet per maand, kopieer deze naar een nieuwe e-mail in Outlook en stuur deze naar de manager met de tekst: ‘Hier zijn de cijfers’. De moeilijkheid zit ‘m in de puzzel. De AI moet de map vinden, Excel bedienen, een grafische actie uitvoeren (grafiek maken) en dan overschakelen naar een ander programma (Outlook) om de data daar correct te plakken.
Een andere opdracht is die van de systeeminstelling. Je geeft de opdracht: “De computer is momenteel te fel voor de avond. Zet de ‘Nachtmodus’ aan, verander de achtergrond van het bureaublad naar een afbeelding van een bos uit de map Afbeeldingen, en zorg dat de computer na 10 minuten inactiviteit in de slaapstand gaat.” Dit test dus of de AI de weg weet in de instellingen van het besturingssysteem. Het vereist dat de AI door menu’s navigeert en begrijpt hoe schuifbalken en aan-/uitknoppen werken in een visuele omgeving.
Waarom is OSWorld-Verified een belangrijke benchmark?
De meeste AI-tests vinden plaats in een tekstvakje. Dat is veilig en eenvoudig. Maar een echte assistent moet over verschillende programma’s heen kunnen werken. OSWorld-Verified meet of een AI-model begrijpt dat een actie in Excel invloed heeft op een presentatie in PowerPoint. Het is een belangrijke graadmeter, omdat het de ‘hand-oogcoördinatie’ van AI test: ziet de AI de icoontjes, kan hij de muis op de juiste plek klikken en begrijpt hij de hiërarchie van mappen? Deze benchmark bepaalt of we een AI-model echt ‘autonoom’ kunnen noemen. Het is relevant voor bedrijven die agenten bouwen die taken van mensen overnemen, zoals het verwerken van facturen of het beheren van klantgegevens. De benchmark wordt gebruikt om te testen of een AI-agent bestand is tegen de chaos van een echt bureaublad, met openstaande vensters, notificaties en verschillende bestandsformaten.
Dit is een van de moeilijkste benchmarks die er bestaat. Mensen halen vrij eenvoudig een score van boven de 90%. Voor ons is het logisch waar de ‘Opslaan’-knop zit. Maar AI-modellen scoren vaak laag. OSWorld-Verified test of AI-agents zelfstandig een computer kunnen gebruiken: apps openen, bestanden aanpassen, formulieren invullen, door meerdere programma’s navigeren. Het gaat om echte computeromgevingen, niet gesimuleerde scenario’s. Met de opkomst van de “computer use agent”, de AI die jouw scherm overneemt om taken te doen, is het belangrijk voor een AI-model om hierop goed te scoren. Het bepaalt namelijk hoe snel AI je digitale werkprocessen kan automatiseren.
Toolathlon — Kan AI tools en apps combineren?
Toolathlon is de decathlon voor AI-modellen. Het laat AI-agents werken met 32 applicaties zoals Google Calendar, Notion, Snowflake, en geeft ze 108 complexe taken die gemiddeld 20+ tool-interacties vereisen.In plaats van alleen maar mooie teksten te schrijven, moet de AI hier laten zien dat hij gereedschap kan gebruiken om een taak uit te voeren. De naam is een samentrekking van Tool (gereedschap) en Decathlon (tienkamp). Met tools worden de externe applicaties bedoeld, zoals een rekenmachine, een agenda, een zoekmachine of een stukje programmeercode. Athlon betekent de sportieve prestatie waarbij de AI op verschillende onderdelen (disciplines) tegelijk wordt getest.
Waarom is de Toolathon een benchmark?
Mensen scoren hier bijna perfect op, omdat wij snappen dat we een rekenmachine moeten pakken voor een ingewikkelde som. De AI-topmodellen scoren tussen de 60% en 80%. De moeilijkheid zit hem in de kettingreactie: als de eerste tool een fout antwoord geeft, loopt de rest van de taak in de soep. Een AI is van zichzelf vaak slecht in rekenen of het ophalen van actuele beurskoersen. Maar een slimme AI weet: “Ik kan dit niet zelf, ik gebruik een tool.” Toolathlon is daarom van belang. Het meet of een model de juiste tool kiest op het juiste moment. Het voorkomt dat een AI gaat ‘hallucineren’ (dingen verzinnen). Als een model hier hoog scoort, bewijst het dat het kan samenwerken met de digitale wereld om ons heen.
Zo werkt de Toolathon-benchmark
De AI krijgt een ingewikkelde vraag waarbij hij zelf moet beslissen welke ‘gereedschapskist’ hij opent.
1. De Reisplanner-combinatie
De opdracht: “Mijn vlucht KL1234 heeft twee uur vertraging. Kijk in mijn agenda wat mijn eerste afspraak is bij aankomst, zoek het telefoonnummer van die persoon op via LinkedIn en stuur een SMS dat ik later ben.” De AI moet drie tools achter elkaar gebruiken: een vlucht-tracker, een agenda-app en een communicatietool. Hij moet de output van de ene tool (de naam uit de agenda) gebruiken als input voor de volgende (het zoeken op LinkedIn).
2. De Wiskundige Check
De opdracht: “Wat is de wortel uit het huidige aantal inwoners van Utrecht gedeeld door de prijs van een Bitcoin?” De formule is Tool 1 (Search): “Hoeveel inwoners heeft Utrecht?” Tool 2 (Search): “Wat is de huidige prijs van Bitcoin?” Tool 3 (Calculator) met de juiste formule. De AI moet hier begrijpen dat hij niet mag gokken, maar de rekenmachine moet aanroepen voor het exacte getal.
De Toolathlon benchmarkt test AI op het gebruik van honderden verschillende tools. In plaats van simpele tekstvragen, krijgt de AI toegang tot echte interfaces (API’s). Een bloemlezing uit de tools:
1. Zoekmachines en informatiebronnen: Google Search / Bing: voor actuele gebeurtenissen. Wikipedia API: voor feitelijke achtergrondinformatie. ArXiv: om wetenschappelijke artikelen en papers te doorzoeken.
2. Kantoor- en productiviteitsapps: Google Calendar / Outlook: voor het plannen en wijzigen van afspraken. Gmail / Slack: om berichten te versturen naar specifieke personen. Google Drive / Dropbox: voor het opzoeken, uploaden of verplaatsen van bestanden.
3. Financiële en Commerciële Tools: Yahoo Finance / Bloomberg: voor actuele aandelenkoersen en cryptoprijzen. OpenWeatherMap: voor de weersverwachting op specifieke locaties.Amazon / Yelp API: om producten te zoeken of restaurants te reserveren.
4. Technische en Wiskundige Gereedschappen: WolframAlpha: Voor complexe wiskunde, chemische formules en natuurkundige berekeningen. Python Interpreter: De AI schrijft een stukje code en voert dit direct uit om een probleem op te lossen. Rekenmachine (Calculator): voor simpel en foutloos rekenwerk.
5. Media en Design: YouTube API: om video’s te vinden of transcripten te analyseren. Pillow (Python library): voor het bewerken of aanpassen van afbeeldingen.
In de Toolathlon krijgt de AI een zogenaamde “Tool Inventory”. Hij ziet een lijst met bijvoorbeeld 200 beschikbare functies. Hij moet dan zelf de juiste syntax (de computercode) schrijven om die tool aan te roepen. Als de AI een typefout maakt in de naam van de tool of een verkeerd argument gebruikt, faalt de taak direct. Het dwingt de AI om heel specifiek en technisch accuraat te zijn.
Relevantie en gebruik
Het is belangrijk om te bepalen of een AI wel een ‘Personal Assistant’ of ‘Agent’ kan zijn, dat wil zeggen dat dit type taken kan uitvoeren. Het is relevant voor ontwikkelaars die AI willen koppelen aan hun eigen software. De benchmark wordt gebruikt in situaties waarin een vraag niet beantwoord kan worden met alleen de kennis uit de training van het model. Denk aan het plannen van een afspraak waarbij de AI in je agenda moet kijken en een e-mail moet sturen.
Samenvattend is de Toolathon benchmark een simulatie die simuleert hoe een AI-assistent werkt in een echte werkomgeving met meerdere systemen. Niet een vraag beantwoorden, maar een project uitvoeren, mails sturen, spreadsheets aanpassen, databases raadplegen. Van belang voor wie AI wil inzetten als digitale collega.
Hier vind je de resultaten van AI benchmarks
Hier zijn drie websites waarop je de benchmarkscores voor elk van de genoemde benchmarks kunt volgen:
1. LLM Stats
LLM Stats biedt overzichtelijke leaderboards voor meerdere benchmarks op één platform. Je vindt er directe pagina’s voor:
ARC-AGI-2: llm-stats.com/benchmarks/arc-agi-v2
IFBench: llm-stats.com/benchmarks/ifbench
BrowseComp: llm-stats.com/benchmarks/browsecomp
Toolathlon: llm-stats.com/benchmarks/toolathlon
2. Artificialanalysis.ai
Artificial Analysis voert onafhankelijke benchmarktests uit en publiceert gedetailleerde leaderboards. Hier vind je scores voor:
3. Epoch.ai
Epoch AI volgt AI-benchmarks vanuit een onderzoeksperspectief en biedt analyses per benchmark. Je vindt er pagina’s voor:
ARC-AGI-2: epoch.ai/benchmarks/arc-agi-2
GDPVal: epoch.ai/benchmarks/gdpval
Dit artikel laat enkele bekende en belangrijke benchmarks zien. Maar er zijn natuurlijk veel meer benchmarks dan hier uitgelegd zijn. Er zijn bijvoorbeeld veel benchmarks die meten hoe goed een AI-model in wiskunde of natuurkunde is. Bovengenoemde benchmarks zijn bedoeld als algemene kennis, zo helpen we mensen AI-geletterd te worden!