Currion, P. et al. (2007). Open Source Software for Disaster Management. Communications of the ACM, 50(3), 61-65.
Di Palma, G. (2013). The Modern State Subverted: Risk and Deconstruction of Solidarity. ECPR.
Elmore, R. (1979-80). Backward Mapping: Implementation Research and Policy Decisions. Political Science Quarterly, 94 (4), 601-616.
Fischer, F. (1995). Evaluating Public Policy. Chicago: Nelson Hall.
Georgiadou, Y. et al. (2011). Sensors, empowerment, and accountability: a Digital Earth view from East Africa. International Journal of Digital Earth, 4(4), 285 - 304.
Guba, E.G., & Lincoln, Y.S. (1989). Fourth Generation Evaluation. London: Sage.
Hoppe, R. (2008). Na ‘doorwerking’ naar ‘grenzenwerk’. Een nieuwe agenda voor onderzoek naar de verhouding tussen beleid en wetenschap. Bestuurskunde, 17(2), 15-26.
Korsten, A. (2013). Wat ervan terecht komt. Zicht op beleidsevaluatie (www.arnokorsten.nl/PDF/Onderzoek/ABC%20van%20beleidsevaluatie.pdf, geraadpleegd 28 januari 2014).
Pawson, R., & Tilley, N. (1997). Realistic Evaluation. London: Sage.
Thaler, R.H., & Sunstein, C.R. (2008). Nudge. Princeton: Yale Unversity Press.
Van Asselt, M. (2001). Perspectives on Uncertainty and Risk. The PRIMA approach to decision support. Dordrecht: Kluwer.
Van de Graaf, H., & Hoppe, R. (1989). Beleid en Politiek. Muiderberg: Coutinho.
Wat kunnen we leren van deze leesbare en boeiende bundel opstellen, geschreven door een keur van deskundige en praktisch ervaren beleidsevaluatoren die vooral keken naar beleidsevaluatie (BE) in de Angelsaksische wereld, ontwikkelingslanden en organisaties als de Wereldbank? De ondertitel van Ray Rists naschrift vat de teneur van het hele boek goed samen: ‘beyond an incremental view of the world’ : beleidsevaluatoren zullen zich, op straffe van irrelevantie, open moeten stellen voor snelle, meer radicale beleidsveranderingen als antwoord op de veelheid van beleidscrises, rampen en fiasco’s in de huidige turbulente tijden – het ‘nieuwe normaal’. In de politiek-bestuurlijke praktijk is iedere vorm van BE een antwoord op de vraag: ‘Wie evalueert wat voor wie, wanneer en waarom, en hoe?’ (Verhoef, in Van de Graaf & Hoppe, 1989: 381) De antwoorden op de eerste vijf van die deelvragen vormen samen wat men wel ‘de context’ van een BE noemt. Iedere ‘context’ genereert zijn typische problemen of praktische, theoretische en methodische uitdagingen. De aanleiding voor dit boek is dus de opvatting dat de meeste contexten voor BE zo sterk in beweging zijn geraakt of ‘turbulent’ zijn geworden dat ex-post BE als (semi- of pseudo-)wetenschappelijke discipline en vanzelfsprekend onderdeel van het proces van beleidsondersteuning bedreigd wordt. In het kort geeft dit boek als antwoord op deze dreiging: ga voor ‘real-time’ evaluatie; verleg uw aandacht van ex-post evaluatie ten behoeve van verantwoording achteraf, naar ex-ante evaluatie tijdens de beleidsformulering en ex-durante evaluatie parallel aan de beleidsimplementatie, met als doelen: ‘early warning’, beleidsleren, en flexibel reageren op snel veranderende omstandigheden.
Het boek kent drie delen. Het eerste daarvan behandelt in algemene zin perspectieven op BE in turbulente tijden. Furubo’s eerste, inleidende, hoofdstuk is een uitvoerige schets van de aanleiding voor de vragen die in het boek aan de orde worden gesteld. Hij betoogt dat BE door sociale, politieke en economische ontwikkelingen achterhaald dreigt te raken. Systematische beleidsevaluatie werd in de jaren zestig bepleit, en in latere decennia van de twintigste eeuw geïnstitutionaliseerd, als methode par excellence om incrementele reflexen in beleidsprocessen te doorbreken. In een ‘experimenting society’ (Popper, Rivlin) op weg naar de verzorgingsstaat zou ex-post BE een zeer noodzakelijke injectie van wetenschappelijke rationaliteit en reflectie bieden. Maar thans leven we in een ‘risk society’ (Beck), de verzorgingsstaat raakt uitgehold, en complexe en ongetemde beleidsvraagstukken (demografische transitie, energietransitie, klimaatverandering, wereldcrisis van het financieel systeem, globalisering, geopolitieke en technologische ontwikkelingen) nemen sterk toe in aantal en politiek gewicht. Onder condities van dit ‘nieuwe normaal’ verschijnt BE als aparte en inmiddels (semi-)geprofessionaliseerde vorm van beleidswerk als een verouderend standaardinstrument voor langzame, stapsgewijze verbeteringen van een verdwijnende verzorgingsstaat. Louter toegesneden op verantwoording achteraf en langzaam, instrumenteel en verbeterend leren is BE niet langer aangepast aan de snelle veranderingen en onvermijdelijke flexibele beleidsaanpassingen in turbulente tijden.
Het tweede en derde hoofdstuk schetsen de hoofdlijnen van een antwoord. In hoofdstuk 2 beargumenteert Gray (emeritus hoogleraar public management) dat we ons moeten ontdoen van de ingeslepen gewoonte van ex-post beleidsevaluatie volgens zo wetenschappelijk mogelijke eisen. ‘Evidence-based’ evaluatie, met zijn wetenschappelijke ‘gouden standaard’ van gerandomiseerd-experimentele evaluatiestrategieën, kan in turbulente tijden niet de passende reactie zijn. In plaats daarvan breekt hij een lans voor Pawson & Tilley’s (1997) voorstel van ‘realistic evaluation’, die zich meer bescheiden en pragmatisch richt op de vraag: ‘Wat werkt voor wie onder welke omstandigheden?’
In hoofdstuk 3 gaan Thomas en Tominaga (beleidsevaluatoren bij o.m. de Wereldbank) een stapje verder. Zij bepleiten een drievoudige ontwikkeling. In de eerste plaats een verlegging van de aandacht van ex-post naar real-time evaluatie (RTE), eerder in het beleidsproces en met een kortere tijdshorizon. Dit zou kunnen door vormen van ‘early warning’ evaluatie in de vorm van een reeks van voortschrijdende deelrapportages tijdens het hele beleidsproces, in plaats van één vuistdik beleidsevaluatierapport na afloop. In de tweede plaats: in plaats van de fictie van één beleidsevaluatie voor één centrale overheid moeten we op zoek naar evaluatievormen die meer aangepast zijn aan de realiteit van vele actoren in structuren van netwerk-governance. Dit zou mogelijk zijn door meer aandacht te schenken aan synergie en verbanden tussen afzonderlijke beleidsprogramma’s en -projecten; en wel door vergelijkende overzichtstudies van eerdere relevante beleidsevaluaties (‘consolidation’), door een multidisciplinaire en meerdere beleidsvelden omvattende (‘cross-cutting’) expertise in de samenstelling van evaluatieteams, door triangulatie tussen verschillende informatiebronnen, en door aandacht voor onbedoelde en onvoorziene (maar misschien wel gunstige) neveneffecten. Als derde accentverlegging bepleiten ze het loslaten van te strakke koppeling van BE met begrotingsprocessen, ten gunste van meer aandacht voor kennis van beleidseffecten in het algemeen als input in de beleidsondersteuning. In dit verband noemen ze het streven van de Wereldbank om vooral ook een ‘Knowledge Bank’ te worden.
Het eerste deel van het boek word besloten met een vierde hoofdstuk van Ling (hoofd ‘impact innovation and evidence’ van de internationale ngo Save the Children) over scenario-gebaseerde evaluatie. Dit hoofdstuk herhaalt het welbekende inzicht dat, afhankelijk van het soort onzekerheid dat een beleidsprobleem beheerst (risico, onzekerheid, onwetendheid, en ambiguïteit), verschillende methoden van onzekerheidsreductie en impactmaximalisatie toegepast behoren te worden (zie ook Van Asselt, 2001). In Nederland wordt deze methodiek al vaak toegepast in de ex-ante beleidsevaluaties van onder meer het CPB en PBL.
Het tweede boekdeel betreedt meer empirisch terrein en bevat enkele (vergelijkende) casestudies van de wijze waarop BE, in verschillende landen en organisaties, een rol speelde bij beleidsvorming over economische turbulenties. In hoofdstuk 5 vraagt Morra Imas (Wereldbank en US Government Accountability Office) of BE een rol speelt in economische paradigmawisselingen en hoe deze op hun beurt de BE hebben beïnvloed. Op grond van schetsen van BE-praktijk in landen als de Verenigde Staten, Groot-Brittannië, Australië, Nieuw-Zeeland, en Chili, en bij de Wereldbank, betoogt zij dat in tijden van paradigmawisseling – van Keynesiaans naar neo-liberaal – ideologische bevlogenheid en hervormingsdrang zwaarder wegen dan BE. Er ontstaat meer vraag naar interne systemen van auditing en prestatiemonitoring, gekoppeld aan budgetten; men wil sturen op resultaten, niet op beleidseffecten (outcomes). Maar prestatiemonitoring is in feite een soort scorekaart voor een beleidsprogramma in vergelijking (soms) tot andere (soortgelijke) beleidsprogramma’s (‘benchmarking’), maar roept uit oogpunt van opgetreden beleidseffecten vaak meer vragen op dan het kan beantwoorden. Daarom vraagt een effectieve crisisreactie om geïntegreerde systemen van monitoring en evaluatie (M&E). BE’s kosten vaak veel tijd en zijn kostbaar. Daarom moet meer werk worden verzet om te beslissen wanneer het genoeg is om prestatiescores te hebben, wanneer een snelle review voldoende oplevert, en wanneer een methodisch rigoureuze evaluatie de moeite waard is. Imas pleit daarom voor de ontwikkeling van standaarden voor goede praktijk, met name een handleiding voor de selectie van het niveau van review en evaluatie dat nodig is voor een gegeven (set van) beleidsprogramma(’s).
In hoofdstuk 6 vraagt professor Marra (Universiteit van Salerno, Italië) zich af hoe BE bij zou kunnen dragen aan de oplossing van de begrotingsperikelen van de EU en veel Europese landen. Zij constateert dat BE het volledig aflegt tegen macro-economische modelbouw en simulatie, gebaseerd op de tegenstelling tussen Keynesiaanse en neo-liberale theorievorming. Om BE toch een plaats te geven pleit Marra voor ‘coevolving economic paradigm and evaluative approaches’. Cruciaal is dat de rol van de staat in de economie sterk is veranderd sinds de tijden waarin deze beide macro-institutionele benaderingen werden ontwikkeld. Het gaat niet meer alleen om macro-economische interventies, maar ook om interventies in het bedrijfsleven zelf (bijvoorbeeld codes voor corporate governance) tot op het niveau van individuele werknemers toe (bijvoorbeeld ‘employability’ als individuele verantwoordelijkheid). Hier ligt een mogelijkheid voor BE door nadrukkelijk de betekenis van bepaalde maatregelen voor het aanpassings- en leergedrag van bepaalde soorten actoren mee te wegen in de bestudering van de uitwerking van een maatregel. Dit is een nuttig pleidooi voor verlegging van aandacht van het macro- en institutioneel perspectief, naar het micro-gedrags- en actorenperspectief in economische beleidsvorming. Eigenlijk gaat het hier om een pleidooi voor meer ‘backward mapping’ (Elmore, 1979) of onderzoek naar ‘nudging’ (Thaler & Sunstein, 2008).
In hoofdstuk 7 bespreken Taylor-Dormond en Tenev (allebei verbonden aan de Wereldbank) de ‘real-time’ evaluatie (RTE) van de beleidsreacties van de Wereldbank op de economische wereldcrisis. Hun ervaringen ondersteunen het pleidooi in het eerste boekdeel om BE ‘upstream’ toe te passen in beleidsontwikkeling/formulering en tijdens de implementatie. De auteurs signaleren wel bepaalde risico’s van RTE, met name voor de betrouwbaarheid van data en (contraproductief!) meer rigiditeit van beleid, omdat de evaluator meer belang kan hechten aan verantwoording dan aan leren. Daarom zou de toepassing van RTE gevolgen moeten hebben voor de inrichting van het gebruik van BE. Het vergt meer frequente interactie tussen evaluatoren en management (in eerdere publicaties noemde ik dat ‘boundary work’, Hoppe, 2008): ‘There was a need to design a new form of relationship with management: one that provides engagement without “getting into the kitchen”.’ (p. 142) Zo spreken de auteurs liever over ‘bevindingen’ dan ‘adviezen’; bepleiten uit oogpunt van onafhankelijkheid een andere samenstelling van evaluatieteams voor verschillende fasen van de BE; vinden meer informele ‘briefings’ nuttiger dan officiële evaluatiepresentaties; vragen aandacht voor het omgaan met onvolledige gegevens; besteden aandacht aan timing, met name zorgvuldige afweging van het belang van snelheid versus kwaliteit; en ten slotte tonen ze zich voorstanders van een gefaseerde RTE- aanpak, van breed naar meer focus. Was RTE in het geval van de Wereldbank effectief? Het is nog te vroeg voor een definitief oordeel; maar er zijn aanwijzingen dat beleid ontwerpen werd geïnformeerd door RTE; en dat RTE leidde tot signalering van gaten in kennis en tot discussies die uitmondden in andere strategische en instrumentele keuzen.
In hoofdstuk 8 bespreekt Speer (Universiteit van Koblenz, en de European Evaluation Society) uitdagingen in de evaluatie van financiële ‘geletterdheid’ (‘literacy’). Bij een zich terugtrekkende overheid past meer individuele verantwoordelijkheid voor het eigen economische wel en wee (Di Palma, 2013); en dit betekent dat financiële geletterdheid van individuele burgers een van de manieren is om dat op een meer verantwoorde manier te bewerkstelligen. Het hoofdstuk bespreekt de doelen van onderwijs in financiële geletterdheid en hoe men doelbereiking zou kunnen vaststellen.
Het derde boekdeel richt zich op cases van beleidsvorming als reactie op meer politieke turbulenties. In hoofdstuk 9 vergelijken Van Stolk (RAND Europe) en Fazekas (PhD aan de University of Cambridge) de ruimte voor BE in de VS en in GB. Beide landen voerden na de terroristische aanslag op de Twin Towers op 9-11-2001 zeer snel crisiswetgeving in die burgerrechten inperkte – tijdelijk, werd gezegd. Hun onderzoeksbevindingen bevestigen de hypothese dat BE bij de crisiswetgeving zelf geen rol speelde. Wel werden in beide landen ‘review clauses’ ingebouwd, maar ‘(t)he lock-in effect is likely greater when the policy changes are more far-reaching, for instance by changing the structure of the core executive in the US’ (p. 175).
In hoofdstuk 10 buigen de Nederlandse evaluatiedeskundigen Leeuw (WODC) en Nelen (Universiteit van Maastricht) zich over de vraag of en hoe BE een rol kan spelen bij contra-terrorismebeleid. Dit hoofdstuk is minder empirisch van opzet dan de andere hoofdstukken in dit boekdeel. Een van hun uitgangspunten is dat het claimen van het voorkómen van een x aantal terroristische aanslagen een moeilijk hard te maken succesmaat is. Het hoofdstuk biedt inzicht in de mogelijke winst, maar ook enkele problemen, van een andere aanpak: ‘koop tijd’ voor beleidsmakers door een ‘realist’ en ‘real-time’ maar ‘theory-based’ (TBE) evaluatie ex-ante tijdens de beleidsformulering toe te passen, (liefst) gebaseerd op ‘mechanism experiments’ (p. 184), immers ‘hypothetical policies can be assessed before they are implemented in the real, that is, turbulent world’ (pp. 193-194). Zogenoemde ‘mechanisme’-experimenten zijn een vorm van pars pro toto of ‘proxy’-evaluatie: men selecteert en isoleert enkele cruciale gedragsmechanismen uit de hele beleidstheorie – bijvoorbeeld kuddegedrag, ‘framing’ of ‘groupthink’ – en toetst alleen deze. Dit kan op elk moment, dus ook ex-ante, en het is gemakkelijker en goedkoper dan het hele beleid achteraf evalueren. Verder besteden de auteurs terecht aandacht aan het multi-actor aspect van BE, nu hoe langer hoe meer beleid wordt uitgevoerd in governance-netwerken. De auteurs belijden een ‘nodal’ governance-theorie, die vooral naar de centrale knooppunten in netwerken kijkt, omdat vooral die de netwerken ‘activeren’ of ‘mobiliseren’. In dit verband vestigen zij de aandacht vooral op kenniscentra (Counterterrorism Information Box). Ook menen zij dat aandacht voor het aspect van samenwerkingsbereidheid in bestuurlijke netwerken betekent dat BE kan bijdragen aan de ex-ante inschatting van de uitvoerbaarheid van beleid.
In hoofdstuk 11 bespreken Bélanger en Jacob (allebei verbonden aan de Laval Universiteit van Quebec, Canada) de vooral door de staf van internationale rampenbestrijdingsorganisaties (zoals het Rode Kruis, Artsen Zonder Grenzen en allerlei specialiseerde VN-organen) geschreven literatuur over BE bij humanitaire rampen en crises. Dat deze ‘grijze’ literatuur vooral door non-academici of althans niet rechtstreeks in BE geschoolde hulpverleners is geschreven, berust op het feit dat zij direct toegang hebben tot de data; en als ‘bijvangst’ van hun betrokkenheid als ‘first or second responders’ voor hun organisaties proberen lessen te trekken voor betere BE tijdens humanitaire crises. Resultaat is dat zij, ondanks de ambitie van meer rationele en strakker gecoördineerde hulpverlening, uitkomen op de onvermijdelijkheid van wetenschappelijk weinig gedisciplineerde RTE. Opvallend is dat de auteurs geen melding maken van geo-informatiesystemen, aardobservatiesatellieten en mobiele telefonie als technologische innovaties die al helpen de hindernissen van gebrekkige data en haperende coördinatie sneller en beter te overwinnen (bijv. Currion et al., 2007). In hoofdstuk 12, ten slotte, bespreekt Aisbey (verbonden aan de Wereldbank en gespecialiseerd in Afrika) het belang van ngo’s voor het monitoren en evalueren van anti-armoede-interventies in de landen van Sub-Sahara Afrika. Dit hoofdstuk beschrijft vooral hoe lokale ngo’s, door cursussen aan de gewone bevolking over hun rechten (op informatie, of mensenrechten, enzovoorts) en organisatie en training van burgers als ‘sensors’ in monitoring-projecten (vgl. Georgiadou et al., 2012), proberen overheidsbeleid te beïnvloeden. Maar Aisbey heeft niets te melden over hun succes of falen; of de resources waaraan zij betekenisvolle tegenmacht zouden kunnen ontlenen. Ook laat hij buiten beschouwing dat juist grote internationale ngo’s en organisaties als zijn eigen Wereldbank als harde voorwaarde voor leningen aan straatarme landen NPM-achtige bestuurshervormingen hebben opgelegd, die via perverse effecten op corruptie bij (internationale) investeerders en in de lokale bureaucratie serieuze vormen van BE feitelijk in de weg staan.
Wat kan BE in Nederland nu leren van deze bundel? Ik beantwoord deze vraag door een korte vergelijking te trekken met Arno Korstens recente overzichtsartikel over BE in Nederland (Korsten, 2013).
Het eerste wat dan opvalt, is dat in Nederland kennelijk de urgentie ontbreekt van de heroverweging van de rol voor ex-post BE die kenmerkend is voor de internationale bundel. Door Nederlandse ogen leest die soms als een ‘redden-wat-er-te-redden-valt’-pleidooi om de rol van expertise in ex-post BE toch vooral ook meer in ex-ante BE te betrekken en te erkennen. De voorstellen daartoe – schakel over op ‘real-time’ evaluatie vroeger in het beleidsproces, integratie van monitoring en evaluatie, ex-ante mechanisme-experimenten, ‘early warning’, ‘backward mapping’, denken in scenario’s, ‘nudge’, uitvoerbaarheidsanalyse – leiden er allemaal toe dat beleidsevaluatie in feite opgaat in beleidsanalyse en beleid ontwerpen. En daarover kan men verschillend denken. Voor sommigen is het doorbreken van de functionele en professionele grens tussen beleidsevaluatie en beleidsanalyse een stap in de goede richting van het ideaal van een volledig geïntegreerde beleidscyclus. Voor anderen is het een roekeloos opgeven van een verstandig schot tussen verantwoording enerzijds, en leren en ontwerpen anderzijds. Als de Wereldbank ‘Kennisbank’ wil worden (Thomas & Tominaga) en beleidsanalisten en -ontwerpers hun kennis voortaan moeten opdoen bij door beleidsevaluatoren gevoede kennisknooppunten (Leeuw & Nelen), herhaalt de publieke sector dan niet de fout die de Big Four internationale accountantsmultinationals (KPMG, PricewaterhouseCoopers, Deloitte, en Ernst & Young) in de bedrijfswereld begingen door in ‘one-stop shops’ én accountantsverklaringen én strategische beleidsadviezen te gaan verkopen? Ook zou men misschien pas op de plaats kunnen maken, in de verwachting dat na turbulente tijden en radicale beleidsveranderingen wel weer een periode van relatieve rust op het beleidsfront zal aanbreken waarin ex-post BE weer zijn vertrouwde rol kan spelen.
Maar er zijn wel degelijk parallellen tussen de internationale en de Nederlandse situatie. Ook Korsten bepleit de ontwikkeling van een contextafhankelijke ‘evaluatieladder’, van lichte monitoring, via benchmarking en (zelf)visitaties naar zware ‘evidence-based’ evaluaties. Ook Korsten signaleert, vooral voor provinciaal beleid, de noodzaak om meer te gaan nadenken over hoe beleidsevaluaties uit te voeren wanneer de overheid geen solo-doorzettingsmacht heeft, maar in beleidsvoorbereiding en -uitvoering gedwongen is samenwerking te zoeken met andere publieke en private partijen. De vraag zou dan bijvoorbeeld kunnen zijn in hoeverre de principes van vierde generatie beleidsevaluatie (Guba & Lincoln, 1989) opschaalbaar zijn. Ten slotte, ook Korsten laat zien dat er tussen opdrachtgever en opdrachtnemer, en in begeleidingscommissies van beleidsevaluaties heel veel mis gaat. Reden waarom er beter nagedacht zou moeten worden over de organisatorische en praktische vormgeving van de relatie tussen kenniswerkers en beleidswerkers.
Ik begon deze review met de stelling dat iedere vorm van beleidsevaluatie een samenstel van antwoorden is op de vraag: ‘Wie evalueert wat voor wie, wanneer en waarom, en hoe?’ Dit is uiteindelijk een politieke vraag die ook in een politieke en bureaupolitieke context door duwen en trekken beantwoord zal worden. Wie ‘evidence-based’ evaluatie door wetenschappelijk getrainde evaluatoren bepleit, duwt richting expertocratie of epistocratie; wie burgers of ngo’s in beleidsmonitoring wil betrekken, duwt richting participatie- en/of deliberatiedemocratie; en wie het wil overlaten aan ambtelijke of in-huis evaluatoren, vertrouwt nog steeds op de bestaande representatiedemocratie. Feit is dat beleidsevaluatie traditioneel beter is ingesteld op sterk instrumentele vraagstukken van wat Frank Fischer (1995) ‘eerste-orde technische evaluatie’ noemt: kwesties van effectiviteit, efficiency en neveneffecten van één of enkele beleidsprogramma’s. Af en toe is er aandacht voor de passendheid en mogelijke ‘finetuning’ van de beleidsdoelen in de context, ofwel ‘eerste-orde situationele rechtvaardiging’. Bij vraagstukken van wat Fischer ‘tweede-orde systeemondersteuning’ noemt – zoals in de bundel vooral besproken in het deel over macro-economische interventies en institutionele vormgeving bij economische turbulenties – laat traditionele beleidsevaluatie het al afweten. Om maar niet te spreken over politiek-filosofische en/of ideologische vragen op het hoogste niveau van politieke oordeelsvorming. Misschien dat Evaluation and turbulent times: Reflections on a discipline in disarray het beste gelezen kan worden als een bezinning op de vraag hoe inderdaad belangrijke veranderingen in tweede-orde contexten opgevangen kunnen worden in de eerste-orde context van professionele beleidsevaluatie. Als dat lukt, is het spook van irrelevantie waar Furobo et al. zo bang voor zijn, verjaagd.