Autoresearch: het einde van A/B-testing zoals we het kennen

Op 6 maart 2026 publiceerde Andrej Karpathy een Python-script van 630 regels op GitHub (opent in nieuw venster). Binnen een week had het 30.000 sterren. Niet omdat het spectaculair oogde, maar omdat het een paradigma brak.

Het project heet autoresearch. Het verandert alles wat we dachten te weten over optimalisatie.

Wat is autoresearch?

Het idee is bijna beledigend simpel.

Je geeft een AI-agent een stuk code, een meetbare metric en een tijdsbudget van vijf minuten. De agent leest de code, bedenkt een verbetering, past de code aan, voert het experiment uit en checkt of de metric verbeterd is. Zo ja: bewaren. Zo nee: weggooien. En herhalen.

Twaalf experimenten per uur. Honderd experimenten per nacht. Terwijl jij slaapt.

Karpathy gebruikte het oorspronkelijk om een klein taalmodel te trainen. De agent ontdekte optimalisaties die hij in twintig jaar handmatig onderzoek had gemist. Shopify-CEO Tobi Lutke richtte dezelfde loop op een intern zoekmodel. Het resultaat: een model van 0,8 miljard parameters dat 19% beter scoorde dan het vorige model van 1,6 miljard parameters. Kleiner, sneller, beter. Zonder menselijke tussenkomst.

Het patroon ontsnapte binnen een week aan machine learning.

A/B-testing op steroïden? Nee. Het einde van A/B-testing

Laten we eerlijk zijn over hoe A/B-testing nu werkt.

Je marketing team bedenkt een hypothese. "Misschien converteert een groene knop beter dan een blauwe." Iemand maakt een ticket aan. Een developer bouwt de variant. Een tool als VWO of Optimizely verdeelt het verkeer. Na twee weken heb je statistische significantie. Of niet. Dan begin je opnieuw.

Dertig experimenten per jaar. Als je geluk hebt.

Autoresearch draait honderd experimenten per nacht.

Het echte verschil zit dieper dan snelheid. A/B-testing tools testen keuzes die mensen bedenken. Groen versus blauw. Tekst A versus tekst B. De menselijke verbeelding is de bottleneck.

Een autoresearch-loop bedenkt zijn eigen hypotheses. De agent kijkt naar de huidige code, combineert dat met wat eerder wel en niet werkte, en stelt verbeteringen voor waar geen mens aan zou denken. Niet alleen de kleur van een knop, maar de hele structuur van de pagina. De volgorde van elementen. De manier waarop JavaScript geladen wordt. De afmetingen van afbeeldingen. Alles tegelijk.

Dit is geen betere versie van VWO. Dit is een andere categorie.

Snellere code. Elke nacht. Automatisch

Hier wordt het concreet voor iedereen die een website draait.

Er bestaat een variant genaamd pi-autoresearch die het patroon toepast op webperformance. Je richt de loop op Lighthouse-scores, bundle size of build times. De agent past je frontend-code aan, draait een Lighthouse-audit, checkt of de score verbeterd is en gaat door.

Stel je voor. Je gaat vrijdagmiddag naar huis. Maandagochtend is je Lighthouse-score van 72 naar 94 gegaan. Niet omdat iemand het weekend heeft doorgewerkt, maar omdat een agent 200 experimenten heeft uitgevoerd waarvan er 15 daadwerkelijk verbeteringen opleverden die allemaal op elkaar gestapeld zijn.

Tobi Lutke deed iets vergelijkbaars met Shopify's Liquid templating engine. De agent voerde 120 experimenten uit en vond 93 commits met verbeteringen. Het resultaat: 53% snellere parsing, 61% minder geheugengebruik. De agent ontdekte dat een simpele switch van regex naar directe byte-matching 12% snelheid opleverde — een optimalisatie die al jaren voor het grijpen lag maar door niemand was opgepakt.

Dit gaat niet over "we moeten onze site sneller maken." Dit gaat over een wereld waarin je site elke nacht automatisch sneller wordt, waar Web Core Vitals geen project meer zijn maar een ongoing proces dat op de achtergrond draait.

Code wordt goedkoper, structureel

De implicaties voor development-kosten zijn enorm.

Een senior developer kost al snel €100 per uur. Performance-optimalisatie is specialistisch werk. Een sprint van twee weken gericht op het verbeteren van laadtijden kost makkelijk €15.000 tot €20.000. En dan heb je misschien vijf verbeteringen gevonden.

Autoresearch vindt er twintig in een nacht. Op een GPU die minder kost dan het koffiebudget van je development team.

Maar het gaat verder dan alleen performance. Harrison Chase, de oprichter van LangChain, bouwde binnen dagen een variant waarbij een agent de code van een andere agent optimaliseert. Agent-on-agent optimalisatie. De metric: een evaluatiescore. De loop: eindeloos.

Een steeds groter deel van het optimalisatiewerk verschuift van menselijke expertise naar compute. Niet het creatieve werk. Niet het bedenken wat je moet bouwen. Maar het eindeloze slijpwerk van iets beter, sneller en efficiënter maken. Dat is nu compute. En compute wordt elke dag goedkoper.

Zes toepassingen waar nog niemand aan denkt

Tot nu toe gaat het gesprek over autoresearch vooral over machine learning, webperformance en marketing. Logisch. Dat zijn de eerste use cases.

Maar het patroon is universeel. Alles wat je kunt meten, kun je in een autoresearch-loop stoppen. En dat opent deuren die nog bijna niemand ziet.

1. Token-optimalisatie: programmeren dat zichzelf goedkoper maakt

Dit is misschien wel de meest meta toepassing die je kunt bedenken. AI-agents die code schrijven verbruiken tokens. Elke token kost geld. Bij Claude Sonnet betaal je per miljoen input- en output-tokens. Bij een serieuze codebase met duizenden bestanden lopen die kosten snel op. Een complexe refactoring kan makkelijk honderdduizenden tokens verbruiken in één sessie.

Maar hoeveel van die tokens zijn echt nodig?

Stel je een autoresearch-loop voor die gericht is op het verlagen van tokenverbruik bij code-generatie. De metric: het aantal tokens dat nodig is om een gedefinieerde set programmeertaken correct uit te voeren. De agent past de systeemprompt aan, optimaliseert de structuur van instructies, experimenteert met compactere codepatronen en slimmere contextvenster-strategieën.

De implicaties zijn duizelingwekkend. Stel dat de loop ontdekt dat een bepaalde manier van functies structureren 30% minder tokens vereist bij het genereren van vergelijkbare code. Of dat een specifieke prompting-strategie de agent dwingt om kortere maar even correcte oplossingen te schrijven. Of dat het vooraf samenvatten van relevante codebestanden in een compact formaat de context-kosten halveert zonder kwaliteitsverlies.

Dit is AI die zichzelf optimaliseert om efficiënter te programmeren. Elke ronde wordt het goedkoper om de volgende ronde te draaien.

De ironie is prachtig. Autoresearch begon als een manier om AI-modellen te trainen. Nu kan het patroon gebruikt worden om het gebruik van diezelfde modellen te optimaliseren. De slang die zichzelf efficiënter leert bijten.

Er is beweging in deze richting. Prompt-optimalisatietools als GEPA uit ICLR 2026 gebruiken genetische evolutie om prompts te verbeteren op bevroren modellen. Maar autoresearch gaat een stap verder: het optimaliseert niet alleen de prompt, maar de hele workflow. Hoe code gestructureerd wordt, hoe context aangeboden wordt, hoe taken opgedeeld worden. Alles wat invloed heeft op het tokenverbruik is fair game.

Voor bedrijven die zwaar leunen op AI-coding agents is dit geen leuk experiment. Dit is een directe kostenverlaging op hun snelst groeiende uitgavenpost.

2. Juridische contracten: clausules die risico minimaliseren

Grote bedrijven hebben duizenden contracten lopen. Elk contract bevat clausules die risico's verdelen: aansprakelijkheidsbeperkingen, boeteclausules, garantietermijnen. De vraag welke clausulecombinatie het beste beschermt tegen financieel verlies is nu het domein van dure juristen die op ervaring en intuïtie varen.

Maar contractueel risico is meetbaar. Je kunt historische claims, geschillen en uitkomsten kwantificeren. De metric wordt verwachte financiële blootstelling per contracttype.

Een autoresearch-loop kan varianten van standaardclausules genereren, deze simuleren tegen historische geschillendata en de combinatie vinden die de financiële blootstelling minimaliseert. Met als guard rail dat de clausules juridisch valide blijven, gevalideerd door een compliance-check.

Geen jurist bedenkt honderd varianten van een aansprakelijkheidsclausule. Een agent wel. En hij doet het in een nacht.

3. Supply chain routing: logistiek die zichzelf optimaliseert

Logistieke bedrijven optimaliseren routes met software. Maar de huidige systemen werken met vaste algoritmes en vooraf gedefinieerde constraints. Ze vinden lokale optima. Niet globale.

Autoresearch kan dit fundamenteel anders aanpakken. De metric: totale transportkosten per geleverde eenheid, inclusief brandstof, tijd, personeelskosten en CO₂-heffingen. De agent past de routeringslogica aan — niet alleen de routes zelf maar de regels waarmee routes bepaald worden. Simuleert een week aan leveringen. Checkt de metric. Herhaalt.

Het verschil met bestaande route-optimalisatie is dat de agent de regels zelf mag herschrijven. Misschien ontdekt hij dat het splitsen van bepaalde leveringen over twee kleinere voertuigen goedkoper is dan één groot transport. Of dat het verschuiven van leveringen naar nachtelijke uren in bepaalde regio's de totale kosten met 8% verlaagt. Dat zijn inzichten die buiten het zoekgebied van conventionele optimalisatiesoftware vallen.

4. Chips en datacenters: hardware die zichzelf leert minder energie te vreten

Dit is de olifant in de kamer van de AI-revolutie. Datacenters verbruiken inmiddels meer stroom dan sommige landen. De verwachting is dat het energieverbruik van AI-workloads de komende jaren verdubbelt of verdrievoudigt. Elke ChatGPT-query, elke gegenereerde afbeelding, elke autoresearch-loop zelf verbruikt elektriciteit.

Maar hier zit een enorme kans. Want het energieverbruik van chips en datacenters is voor een groot deel een software-probleem.

Neem GPU-kernels. Dat zijn de kleine stukjes code die op de chip draaien. De manier waarop die kernels geschreven zijn bepaalt hoeveel energie een berekening kost. Er bestaat een project genaamd AutoKernel dat het autoresearch-patroon toepast op GPU-kernel-optimalisatie. De agent profiled welke kernels het meeste energie verbruiken, herschrijft ze, benchmarkt het resultaat en herhaalt. Veertig experimenten per uur.

Een datacenter heeft duizenden configuratieparameters. Koelingsalgoritmes, workload-schedulers, power management, thermische modellen. Deze systemen zijn nu afgesteld door engineers op basis van best practices en handmatige tuning. Maar de interacties zijn zo complex dat geen mens het optimale punt kan vinden.

De metric: energieverbruik per berekening, gemeten in joules per floating point operation. De guard rail: rekenprestatie blijft boven een minimumdrempel en geen enkele server overschrijdt een kritische temperatuur.

Een autoresearch-loop die elke nacht de configuratie van een datacenter optimaliseert. Honderd experimenten terwijl de ingenieurs slapen. Bij een datacenter dat miljoenen euro's per jaar aan stroom verbruikt, is 3% besparing een klein fortuin.

De mooiste ironie van allemaal: AI die zichzelf inzet om AI goedkoper en groener te maken.

5. Energienetwerken: balancering die zichzelf leert

Het elektriciteitsnet wordt steeds complexer. Zonnepanelen, windmolens, thuisbatterijen, elektrische auto's die laden en ontladen. De balans tussen vraag en aanbod moet realtime kloppen, en de huidige modellen worden steeds minder toereikend.

De metric is helder: minimale kosten van energiebalancering, met als constraint dat de netfrequentie binnen toleranties blijft. Een autoresearch-loop kan de besturingslogica van een energienetwerk simuleren en optimaliseren. Wanneer schakelt je thuisbatterij van laden naar leveren? Bij welke prijsdrempel vraag je grote industriële afnemers om hun verbruik te verlagen?

Dit is het soort probleem met duizenden interacterende variabelen dat voor mensen onmogelijk te overzien is. Maar perfect geschikt voor een loop die elke vijf minuten een nieuwe configuratie test.

De energietransitie is niet alleen een hardware-probleem. Het is een software-optimalisatieprobleem. En autoresearch is gebouwd voor dit type uitdaging.

6. Personalisatie van onderwijs: leertrajecten die zichzelf verbeteren

Educatieve platforms worstelen al jaren met personalisatie. Welke volgorde van lesmateriaal leidt tot de beste leerresultaten? Welke combinatie van video, tekst en oefeningen werkt voor welk type leerling?

De metric: score op een gestandaardiseerde toets na afronding van een module. De agent past de volgorde, moeilijkheidsgraad en mix van content aan. Simuleert leertrajecten op basis van historische studentdata. Checkt of de gemiddelde toetsscore verbetert zonder dat de uitvalrate stijgt.

Nu wordt elk curriculum handmatig ontworpen door onderwijskundigen. Met de beste intenties maar beperkte mogelijkheden om te experimenteren. Een autoresearch-loop kan duizenden varianten van een leertraject testen en ontdekken dat een contra-intuïtieve volgorde — bijvoorbeeld eerst een moeilijke oefening en dan pas de theorie — tot betere resultaten leidt.

Onderwijs is te belangrijk om alleen op intuïtie te baseren.

Het patroon is het product

Dit is wat de meeste mensen nog niet zien.

Autoresearch is geen tool. Het is een patroon. Een recept. Neem een veranderbaar bestand, definieer een meetbare metric, zet er een AI-agent op en laat de loop draaien.

Karpathy zelf vatte het samen:

Je schrijft niet meer de code. Je schrijft de markdown die de agent vertelt hoe hij de code moet schrijven. De mens wordt meta-onderzoeker. De strategie is van jou. De tactiek is van de machine.

De implicaties zijn enorm. Elk bedrijf dat ergens een getal probeert te verbeteren heeft nu toegang tot een methode die honderd keer sneller experimenteert dan een menselijk team. Niet over tien jaar. Nu. Het script staat op GitHub. MIT-licentie. 630 regels Python.

De vraag is niet of dit patroon je industrie gaat raken.

De vraag is: waar richt jij de loop op?