Stel je de sprintreview voor. Het dashboard staat aan en het hele team kijkt mee. Het getal dat de meeste blikken trekt is niet "features live" maar "2,3 miljard tokens verbruikt". Iemand knikt goedkeurend. Die knik is waar het misgaat.
We hebben jarenlang in uren gepland. Capaciteit was een rekensom: beschikbare developers maal werkdagen maal een focusfactor. Daar rolde een sprintdoel uit. Nu typt de agent. Hij leest de repository, schrijft de code en kijkt zijn eigen werk na. Bij elke stap loopt de teller. Dus klinkt het bijna vanzelfsprekend: plan niet meer in uren maar in tokens. Het klinkt modern en schaalbaar.
En er zit waarheid in. Tokens kosten echt geld. GitHub schoof Copilot naar een verbruiksmodel waarin de rekening meebeweegt met je gebruik. Een autonome agent kan je budget halverwege de sprint leegtrekken als niemand vooraf de som heeft gemaakt. Wie agents serieus inzet moet tokens dus begroten. Punt.
Maar begroten is iets anders dan ergens trots op zijn. Een token is wat je werk kost. Niet wat het oplevert. Dat onderscheid lijkt klein en is dodelijk.
We hebben deze fout eerder gemaakt. Ooit telden we regels code, alsof meer typen vanzelf meer waarde betekende. Nu dreigt dezelfde vergissing onder een nieuwe naam: tokenmaxxing. In delen van Silicon Valley is een groot tokenbudget een badge of honor geworden. TechCrunch beschreef onlangs een team dat twee keer zoveel output haalde tegen tien keer de tokenkosten. Twee keer zoveel volume dus. Niet twee keer zoveel waarde. Fortune kopte een paar weken later simpelweg dat tokenmaxxing voorbij is. De uitgaven sloegen bij de meeste bedrijven niet om in rendement.
Het aardige is dat het acroniem nooit heeft gelogen. Return on Tokens wordt ROT. Verhef tokens tot doel en je ziet vanzelf wat er gebeurt.
Mens
Een metric is nooit neutraal. Zet het tokengetal op het scorebord en mensen gaan het maximaliseren. De gebruiker raakt daarbij uit beeld. De developer die gisteravond een agent tienduizend regels liet schrijven, voelt zich productief. Iemand moet die tienduizend regels alleen nog wel lezen. Dat is geen detail. Dat is de bottleneck. De duurste tokens zijn de tokens die niemand goed heeft nagekeken en die in productie kapotgaan.
Daar zit de reden waarom adoptie geen bijzaak is. AI werkt pas als mensen het echt gebruiken en vertrouwen. Afvinken om een teller te voeden telt niet. Een team dat snapt waaróm het iets bouwt, gebruikt de agent als gereedschap. Een ander team jaagt het tokenquotum na en verwordt tot een doorgeefluik dat zijn eigen code niet meer doorgrondt. Het verschil zit niet in de techniek. Het zit in de mens die kiest om wel of niet te reviewen.
Proces
Maak het sprintdoel "verbruik het budget efficiënt" en je hebt je proces binnenstebuiten gekeerd. De input is dan je doel geworden. De output had dat moeten zijn.
Het onderzoek wijst steeds dezelfde kant op. Het DORA-team van Google noemt AI een versterker. Het grootste rendement komt niet van de tool maar van het systeem eromheen: de kwaliteit van je processen en je codebase. En die winst is allesbehalve gelijk verdeeld. Op eenvoudig greenfield-werk levert AI volgens hun cijfers 35 tot 40 procent productiviteitswinst. Op complexe legacy-code zakt dat vaak naar 10 procent of minder. Eén plat tokengetal verstopt nu net dat verschil. Het zegt alleen iets over je uitgaven. Over de opbrengst zegt het niets.
Een proces dat echt stuurt, meet wat er veranderde voor wie het werk gebruikt. Daalde de doorlooptijd? Hield de kwaliteit van de pull requests stand? Bleven de incidenten in productie laag? Dat zijn lastiger cijfers dan een tokenteller op je API-factuur. En daarom precies de cijfers die ertoe doen.
Wat meet je dan wél?
Drie cijfers die je tokenteller niet kent. Ze vertellen wél of de agent iets opleverde.
Doorlooptijd. De tijd van eerste commit tot in productie. Daalt die, dan versnelt AI je echt. Gaan review en herwerk juist omhoog, dan zie je dat hier meteen terug.
PR-kwaliteit. Tel niet hoeveel pull requests binnenkomen. Tel hoeveel er in één keer door de review komen. Veel afgekeurde of telkens heropende PR's betekenen dat de agent volume levert in plaats van werk.
Incidenten in productie. Het eerlijkste cijfer van allemaal. Gegenereerde code die het 's nachts begeeft, is de duurste code die je hebt. Blijft de incidentlijn vlak terwijl je meer oplevert, dan klopt het plaatje.
Eén cijfer dat echt beweegt zegt meer dan elke tokenteller.
Techniek
Technisch gezien is een token niets bijzonders. Het is een inputkost zoals stroom of rekencapaciteit. Je hoort het te monitoren en je zet er een plafond op. Kostenbeheersing is een serieus onderwerp zodra agents autonoom draaien. Niemand pleit hier voor blind tokens verstoken.
Maar je belangrijkste cijfer hoort geleverde waarde te meten. Niet de brandstofrekening. Als ROT al ergens voor deugt, dan als efficiëntieratio: waarde per token. Zelfs dan blijft de teller waarde. De tokens staan in de noemer, waar inputs horen. Tech-agnostisch zijn betekent ook metriek-agnostisch zijn. Word niet verliefd op het getal dat je tool toevallig het makkelijkst rapporteert. Kies het getal dat je klant raakt.
De eenheid is veranderd, de valkuil niet
Op onze eigen site staat het al: investeer in resultaten en duurzame impact, niet in uren. Vervang "uren" door "tokens" en de zin klopt nog steeds woord voor woord. Uren waren nooit het doel. Ze waren de prijs die je betaalde om iets te leveren. Tokens zijn precies hetzelfde. Alleen sneller, schaalbaarder en verleidelijker om mee te pronken.
Dus laat dat tokengetal gerust op het dashboard staan. Als kostenregel. Zet daarnaast het getal dat er echt toe doet. Kijk dan welke van de twee je team trotser maakt. Op de dag dat dat tweede getal wint, is je Return on Tokens eindelijk geen rot meer.
