Hoe weet ik of een AI-marketingtool echt werkt?

Draai een holdout-test op de tool zelf. Houd een segment, een geo of een periode bewust buiten de tool en vergelijk de resultaten met de groep die de tool wel gebruikt. Het verschil is de werkelijke bijdrage. Het dashboard van de tool meet alleen zijn eigen output en bewijst niet dat die output iets toevoegde aan wat je zonder de tool ook had gehad.

Waarom is het dashboard van een AI-tool geen bewijs?

Een tool meet zijn eigen output en optimaliseert daarop, dus die output ziet er per definitie goed uit. Het dashboard zegt wat de tool deed, niet wat er zonder de tool zou zijn gebeurd. Onderzoek van MIT laat zien dat gen-AI-tools hun eigen impact gemiddeld met een factor 3,4 overdrijven tegenover onafhankelijke uplift-tests. Alleen een externe baseline of holdout scheidt werkelijke van toegeschreven bijdrage.

Welke vragen moet ik een AI-vendor stellen voor ik koop?

Vier vragen: mag ik een holdout draaien op jullie tool, op welke externe baseline meten we de uplift, wat gebeurt er met jullie cijfers als ik de tool een week uitzet, en wie bezit de meetdata. Een vendor die twee of meer van deze vragen ontwijkt, geeft je daarmee het antwoord dat je nodig hebt.

Moet ik kiezen voor automatisering of beslissingsondersteuning?

Voor beslissingsondersteuning, zeker zolang je nog niet kunt herleiden of een tool werkt. Volledige automatisering haalt het controlepunt weg waar een fout zichtbaar wordt voordat hij geld kost. Een tool die een signaal geeft met onderbouwing en de mens laat beslissen is trager maar betrouwbaarder dan een tool die autonoom handelt in een blinde vlek.

Werkt je AI-marketingtool echt? Er is maar een manier om het te weten.

Er is een vraag die bureau-eigenaren steeds vaker aan een AI stellen, en waar ze steeds een lijstje op terugkrijgen: wat is de beste AI-tool voor marketing? Het antwoord is altijd een opsomming van features, integraties en prijzen. Het is de verkeerde vraag, op precies dezelfde manier als waarop "wat is de beste transcriptietool" de verkeerde vraag is. De juiste vraag is niet welke tool het meeste kan. Het is: hoe weet ik of deze tool echt iets oplevert, en niet alleen een dashboard dat zegt dat het werkt.

Dit stuk gaat over dat verschil. Waarom een toolkeuze op features bijna altijd misgaat, waarom het dashboard van een tool nooit het bewijs is, en wat de enige test is die wel telt. Aan het eind: een concreet rijtje vragen dat je aan elke vendor stelt voordat je tekent.

01Features zijn geen bewijs

Een feature-lijst meet wat een tool kan doen, niet wat een tool voor jou oplevert. Dat klinkt als een open deur, maar het is precies waar de meeste keuzes op stranden. Twee tools met een vrijwel identieke feature-lijst kunnen een totaal verschillend effect hebben op jouw resultaat, omdat het effect niet in de feature zit maar in hoe goed de tool past op jouw proces, jouw data en jouw team. De vraag of tool X iets kan, is bijna altijd ja. De vraag of tool X bij jou meer oplevert dan wat je nu doet, is bijna nooit beantwoord voordat het contract getekend is.

We schreven dit eerder uit voor transcriptietools: de beste tool bestaat niet los van de vraag wat je ermee wilt. Hetzelfde geldt voor elke AI-marketingtool. Een tool die ad-copy genereert is niet beter of slechter dan een andere op grond van zijn feature-lijst. Hij is beter of slechter op grond van of die copy meer verkoopt dan wat je team nu schrijft. En dat staat in geen enkele demo.

02Het dashboard liegt niet, maar het bewijst ook niks

Elke AI-tool komt met een dashboard, en elk dashboard laat zien dat de tool werkt. Dat is geen toeval en het is geen kwade opzet. Een tool meet zijn eigen output, en zijn eigen output ziet er per definitie goed uit, want dat is wat hij optimaliseert. Het probleem is dat de cijfers op dat dashboard de verkeerde vraag beantwoorden. Het dashboard zegt: dit heeft de tool gedaan. Het zegt niet: dit zou er zonder de tool niet zijn gebeurd.

Dat onderscheid is precies de meetlat-discrepantie die we beschreven bij het MIT-onderzoek naar mislukte AI-pilots. 95 procent van die pilots haalde de productie nooit, en in de overgrote meerderheid lag dat niet aan het model maar aan het ontbreken van een baseline. Niemand kon zeggen of het werkte, omdat niemand een referentie had. Een tool die zijn eigen succes rapporteert is geen referentie. Het is een marketing-tool met een grafiek erop.

3,4×

Volgens het MIT-onderzoek overdrijven gen-AI-tools hun eigen impact gemiddeld met een factor 3,4, gemeten tegen onafhankelijke uplift-tests. Het dashboard van de tool is structureel optimistischer dan de werkelijkheid.

03De enige test die telt is een holdout

Er is precies een manier om te weten of een tool echt iets oplevert: je houdt een deel bewust buiten de tool en je vergelijkt. Een holdout-groep, een geo-test, een periode waarin je de tool uitzet. Het verschil tussen de groep met en de groep zonder is de werkelijke bijdrage. Niet de toegeschreven bijdrage op het dashboard, de werkelijke. Dit is dezelfde logica als bij incrementality-meting voor campagnes: alleen een controlegroep scheidt oorzaak van toeval.

En hier wordt het ongemakkelijk voor de vendor. Een holdout op de tool zelf is precies wat de meeste leveranciers je liever niet laten doen, want het is het enige experiment dat hun dashboard kan tegenspreken. Een goede vendor verwelkomt het. Een vendor die je een holdout uit het hoofd praat (dat raden we af, dat vertekent de resultaten, ons model heeft alle data nodig om te werken) vertelt je daarmee precies wat je moet weten.

"Een vendor die je een holdout op zijn eigen tool afraadt, geeft je daarmee het belangrijkste antwoord dat je nodig hebt."

Stevin Journal, redactie.

04Kies op beslissingsondersteuning, niet op automatisering

Er is een tweede onderscheid dat bureaus structureel verkeerd wegen. De meeste AI-tools verkopen automatisering: ze nemen werk uit handen, ze doen het sneller, ze draaien zonder dat iemand kijkt. Dat klinkt als de hele belofte, maar het is precies waar het misgaat als je het niet kunt herleiden. Een tool die autonoom handelt zonder dat je weet of het werkt, is geen tijdwinst, het is een blinde vlek die sneller groeit.

De tools die wel renderen, zijn de tools die een beslissing ondersteunen in plaats van vervangen. Die een signaal geven, de onderbouwing erbij leveren, en de mens laten beslissen of het klopt. Dat is trager dan volledige automatisering, en het is precies daarom betrouwbaarder: er zit een controlepunt in waar een fout zichtbaar wordt voordat hij geld kost. We schreven eerder dat AI in marketing in 2026 voelt als 2008: niet omdat de modellen falen, maar omdat mensen te veel rechten weggeven aan tools die ze niet helemaal begrijpen. Beslissingsondersteuning houdt dat controlepunt in stand. Automatisering haalt het weg.

05De vier vragen voor elke vendor

Concreet. Voordat je een AI-marketingtool inkoopt, stel deze vier vragen. Ontwijkt een vendor er twee of meer, loop dan weg.

Mag ik een holdout draaien op jullie tool? Een week, een segment, een geo. Het juiste antwoord is ja, graag. Het foute antwoord is een reden waarom dat niet kan.
Op welke baseline meten we de uplift?Niet jullie dashboard, maar mijn CRM, mijn P&L, of een controlegroep. Als de enige baseline het dashboard van de tool zelf is, is er geen baseline.
Wat gebeurt er met jullie cijfers als ik de tool een week uitzet? Het juiste antwoord is: dat moet zichtbaar worden in een uplift-grafiek. Het foute antwoord is: dat raden we af.
Wie bezit de meetdata? Als het antwoord wij is, of het zit in ons platform, dan heb je geen meetdata. Dan heb je een tool met een grafiek.

06Waarom dit een bureau-vraag is, geen tech-vraag

Het kiezen van een AI-tool wordt vaak behandeld als een technische vraag, opgelost met een vergelijkingstabel. Maar het is een bureau-vraag, en de inzet is groter dan een abonnement. Een bureau dat een tool inzet zonder te weten of het werkt, verkoopt zijn klant uiteindelijk een verhaal dat het niet kan onderbouwen. En de dag dat de klant vraagt wat dit nou echt heeft opgeleverd, staat het bureau met hetzelfde dashboard dat de tool zelf produceerde. Dat is geen antwoord, dat is een doorverwijzing naar de marketingafdeling van de vendor.

Daarom is de toolkeuze niet het eindpunt, maar het begin van een meetvraag. Welke tool je ook kiest, de waarde ontstaat pas als je de uitkomst kunt herleiden tot iets buiten de tool om. Dat is waar Stevin voor is gebouwd: niet om nog een tool toe te voegen die zijn eigen succes rapporteert, maar om de signalen uit je hele stack samen te brengen, de afwijking zichtbaar te maken, en er een beslissing aan te koppelen die je kunt verantwoorden. Marketing intelligence die beslist, niet alleen rapporteert.

"Wonder en is gheen wonder."

Simon Stevin, 1586. Als je het niet kunt herleiden, is het geen feit maar een verhaal.

•••

"Het is geen wonder. Het is Stevin." · Editie 017 / 052

Werkt je AI-marketingtool echt? Er is maar een manier om het te weten.

01Features zijn geen bewijs

02Het dashboard liegt niet, maar het bewijst ook niks

03De enige test die telt is een holdout

04Kies op beslissingsondersteuning, niet op automatisering

05De vier vragen voor elke vendor

06Waarom dit een bureau-vraag is, geen tech-vraag

Weten wat je campagnes doen, terwijl het gebeurt

Meer uit het Journal

Starship-lancering SpaceX geannuleerd door motorstoring

Web Push-advertenties groeien in 2026 met strengere regels en betere data

Beehiiv voegt AI en groepschat toe aan nieuwsbriefplatform