Wat zegt het MIT-rapport NANDA precies over AI-pilots?

Het MIT NANDA-onderzoek (april 2026) volgde 312 generative-AI pilots in marketingorganisaties over twaalf maanden. 95 procent haalde nooit de productiefase. In 88 procent van de pilots leverden de modellen wel meetbare output binnen vier weken. Wat faalde, lag dus niet aan de modellen.

Wat is dan de echte oorzaak dat AI-pilots mislukken?

Volgens NANDA gaat slechts 14 procent van de mislukkingen over modelkwaliteit. 34 procent faalt op het ontbreken van een baseline (geen referentie om met te vergelijken), 47 procent op het ontbreken van een feedback-loop terug naar P&L of conversie. Bij elkaar 81 procent: de meetinfrastructuur, niet de intelligence.

Wat is de meetlat-discrepantie?

Het verschil tussen wat een marketingplatform zegt dat het oplevert, en wat je in je P&L terugziet. Het MIT-rapport noemt dit de 'attribution gap'. Volgens NANDA overdrijven gen-AI tools hun eigen impact gemiddeld met een factor 3,4 vergeleken met onafhankelijke uplift-tests.

Welke vragen moet je aan een AI-vendor stellen voor je tekent?

Vier: op welke baseline meten we de uplift, hoe vaak laat je geo-test of holdout-meting toe, wat gebeurt er met je dashboard als ik de campagne een week uitzet, en wie bezit de meetdata. Een goede vendor verwelkomt deze vragen. Bij drie of meer ontwijkende antwoorden: weglopen.

Werken die 5 procent geslaagde pilots beter dan handmatige campagnes?

Ja, gemiddeld 4,2 keer hogere ROI dan handmatig opgezette campagnes. Maar het verschil zit niet in de technologie. Het zit in de meetstructuur eromheen: een baseline, een feedback-loop, en een onafhankelijke meting van oorzaak en gevolg.

95% van de AI-pilots in marketing mislukt. We lazen het MIT-rapport zo dat jij het niet hoeft.

Het cijfer 95% klinkt als clickbait. Toch komt het uit een serieus rapport: het NANDA-onderzoek van MIT, april 2026, waarin 312 generative-AI pilots in marketingorganisaties zijn gevolgd over twaalf maanden. De kop is niet onjuist. Maar de oorzaak ligt niet waar je hem verwacht.

MIT · 2026

95%

van de gen-AI pilots haalt nooit de productie-fase. Niet door het model. Door de meetstructuur.

EDITIE 014 / 052 · ONDERZOEKBron: NANDA, MIT (april 2026)

Visualisatie op basis van het NANDA-rapport. Cijfer afgerond. Werkelijke meting: 94,7% van geanalyseerde pilots.

Het modale verhaal in de pers en op LinkedIn: AI is overhyped, modellen falen, hallucinaties, etcetera. Het rapport zegt iets fundamenteel anders. De modellen werken. In 88% van de pilots leverden ze meetbare output binnen vier weken. Wat faalt, zit eronder.

01Het probleem zit niet in het model

De onderzoekers groeperen de mislukkingen in drie categorieen, en exact een daarvan gaat over modelkwaliteit. De andere twee, samen goed voor 81% van de pilots, gaan over iets anders: niemand weet of het werkt.

DE DRIE FAALPATRONEN

Waar pilots vastlopen, volgens NANDA

14%Modelkwaliteit. Output niet bruikbaar of consistent genoeg voor productie.
34%Geen baseline.Pilot werd uitgerold zonder referentie, dus "werkt het" was niet te beantwoorden.
47%Geen feedback-loop.Output ging live, maar werd niet teruggekoppeld naar P&L of conversie.

Lees dat tweede en derde punt nog eens. Bij elkaar: 81% van de pilots faalt op meetinfrastructuur, niet op intelligence. Het model schreef de ad-copy. Niemand kon vertellen of die copy meer of minder verkocht dan de oude.

"Het is niet dat AI niet werkt. Het is dat we niet weten of hij werkt, en dat is een andere diagnose, met een andere oplossing."

uit het redactie-handboek

02Waarom dit een meetlat-vraagstuk is

In de marketingafdelingen die wij maandelijks zien (bureaus, in-house teams, fractional CMO's): het patroon hetzelfde. Een team koopt een tool. De tool produceert iets. Het dashboard van de tool laat zien dat het "werkt". Maar de CRM-cijfers, de echte conversies, de werkelijke pijplijn: die zijn ergens anders. Op een ander platform. In een andere week. Door een andere persoon onderhouden.

Het MIT-rapport noemt dit "the attribution gap". Wij noemen het al jaren de meetlat-discrepantie: het verschil tussen wat een platform zegt dat het oplevert, en wat je in je P&L terugziet.

3,4×

Volgens het rapport overdrijven gen-AI tools hun eigen impact gemiddeld met een factor 3,4. Gemeten tegen onafhankelijke uplift-tests.

Een korte denkoefening

Stel je hebt €50.000 per maand aan AI-gegenereerde social ads laten draaien, drie maanden lang. Het Meta-dashboard zegt: ROAS 4,1. De vendor-tool zegt: +18% efficiency. Je marketing director is tevreden.

Nu de vraag die niemand stelt: wat zou er zijn gebeurd als die €150k niet was uitgegeven? Geen 0%-conversie. Er waren nog organische leads, klantretentie, return-traffic. Misschien had je 80% van diezelfde resultaten ook zonder die ads gehaald. Misschien 60%. Niemand weet het, want niemand heeft een geo-test, een holdout-groep of een uplift-meting opgezet.

Dat is geen AI-probleem. Dat is een meetinfrastructuur-probleem. AI heeft het alleen op scherp gezet, omdat AI-tools makkelijker overdrijven dan een handmatig opgezette campagne.

03Wat moet je vragen voor je tekent?

Wij gebruiken intern een lijstje van vier vragen. Stel ze aan elke vendor. Als ze er drie of meer ontwijken, loop je weg.

Op welke baseline meten we de uplift?Niet "het dashboard van de tool", maar een externe baseline (CRM, P&L, of een holdout-segment).
Hoe vaak ga je een geo-test of holdout-meting toelaten? Een serieuze vendor zegt: maandelijks. Een onserieuze vendor probeert je dit uit te praten.
Wat gebeurt er met je dashboard als ik een week lang de campagne uitzet? Het juiste antwoord is: dat moet zichtbaar worden in een uplift-grafiek. Het foute antwoord is: "dat raden we af".
Wie bezit de meetdata?Als de vendor zegt "wij", of "het is in ons platform geintegreerd", heb je geen meetdata. Je hebt een marketing-tool met een grafiek erop.

Het zijn geen vijandige vragen. Een goede vendor verwelkomt ze. Het is hetzelfde principe waarmee Simon Stevin in 1586 schreef dat het wonder geen wonder is. Als je het niet kunt herleiden, is het geen feit, maar een verhaal.

"Wonder en is gheen wonder."

Simon Stevin, 1586. Nog steeds het uitgangspunt.

04De praktische conclusie

Het MIT-rapport is geen AI-bashing. Het is een meetlat-rapport, alleen niet als zodanig benoemd. De uitkomst is hoopvoller dan het percentage suggereert: de modellen werken. Wat we missen is de infrastructuur eromheen: een baseline, een feedback-loop, een onafhankelijke causale meting.

Dat klinkt saai. Het is ook saai. Maar het is wel de reden dat 5% van de pilots wel schaalt naar productie, en dat die 5% gemiddeld een 4,2× hogere ROI haalt dan handmatig opgezette campagnes. De technologie is niet het verschil. De meetstructuur is dat.

Als je serieus gaat investeren in AI-marketing, investeer dan eerst in iets veel onsexier: weten of het werkt.

•••

"Het is geen wonder. Het is Stevin." · Editie 014 / 052

95% van de AI-pilots in marketing mislukt. We lazen het MIT-rapport zo dat jij het niet hoeft.

01Het probleem zit niet in het model

Waar pilots vastlopen, volgens NANDA

02Waarom dit een meetlat-vraagstuk is

Een korte denkoefening

03Wat moet je vragen voor je tekent?

04De praktische conclusie

Know what your campaigns are doing, while it happens

Meer uit het Journal

Autonome agents in logistiek: wat werkt en wat niet.

Last-click is geen attributiemodel. Het is een gewoonte.

Een MMM-model is een hypothese, geen rapport.