KDW - van platitudes, ‘science by handwaving’ en statistische onkunde

Wim de Vries, Han van Dobben en Wieger Wamelink hebben gereageerd in NatureToday (een WUR-platform) op onze studie Nitrogen Critical Loads: Critical Reflections on Past Experiments, Ecological Endpoints, and Uncertainties.

Men heeft er blijkbaar vanaf gezien om de internationale wetenschappelijke gemeenschap te informeren over hun academische bedenkingen.

Dat is maar goed ook, zo zal blijken.

De redactie van NatureToday gaf de volgende hilarische respons op mijn verzoek om te reageren op de Vries et al. (met nadruk):

“Helaas kunnen we je deze mogelijkheid niet bieden. We hebben Wim de Vries eenmalig de mogelijkheid geboden, op jouw verzoek aan hem om een reactie op je position paper. Nature Today biedt echter geen podium voor discussie.”

Ten eerste heb ik Wim nooit persoonlijk gevraagd om een reactie op dit platform maar om een reactie in het Amerikaanse tijdschrift waar ons artikel is gepubliceerd.

Ten tweede is het choquerend én academia onwaardig om te vernemen dat discussie niet mogelijk is.

En inderdaad: discussie is niet echt mogelijk omdat zal blijken dat geachte schrijvers heel wat academisch werk te verzetten hebben voordat zij überhaupt met míj in discussie kunnen gaan!

Mijn hoofdconclusie is dat de Vries et al. hun overbekende standpunten herhalen zonder daadwerkelijk op onze bevindingen in te gaan.

De auteurs verwarren in hun kritiek de kwestie dat stikstof ontegenzeggelijk effecten heeft op ecosystemen (boeren gebruiken niet voor niets stikstof!) met KDW die een ecologische precisie suggereren die niet bestaat en nooit heeft bestaan.

Daarnaast leggen de auteurs een stuitend gebrek aan begrip bloot van de wetenschappelijke statistische mores en komt hun bespreking van onzekerheid niet verder dan een dikke onvoldoende.

Dat maakt duidelijk, helaas, dat de auteurs zich weinig gelegen laten liggen aan de brede academische ontwikkelingen die van groot belang zouden moeten zijn voor het eigen vakgebied.

Dat gebrek aan (heel veel) kennis heeft, zoals ik eerder heb gezegd, verstrekkende negatieve gevolgen voor de Nederlandse samenleving als geheel.

Bij dezen een onthutsend inkijkje in de wereld van ‘KDW-pluggers’ (vrij naar de platenpluggers van weleer.)

Wat allereerst opvalt in de reflectie van de Vries et al. is de vruchteloze metafoor van menselijke fysiologie als beeld van het functioneren van ecosystemen.

Die metafoor gaat niet op omdat de noodzakelijk eenheid van een enkelvoudig organisme – in casu de mens – onvergelijkbaar is met de diversiteit van een veelheid van organismen – planten, schimmels, bacteriën, insecten, vogels, zoogdieren enzovoort - die soms nauw en in andere gevallen nauwelijks interacteren.

Neen: ecosystemen, waarvan er tallozen bestaan, kennen geen homeostase van zorgvuldig in elkaar grijpende fysiologische systemen zoals het menselijk lichaam.

Dit gezegd hebbende, beginnen de De Vries et al. met de definitie van kritische depostiewaarden (KDW): ‘de atmosferische stikstofdepositie die een ecosysteem over langere tijd verdragen kan zonder dat er significante schade optreedt aan de structuur of het functioneren ervan’.

Wij stellen dat deze definitie veel te vaag is om als wetenschappelijk bruikbaar te bestempelen, zoals wij stellen in onze publicatie (met nadruk):

“The official definitions of what critical loads is are to some extent clear with respect to political goals, but not clear with respect to repeatable or consistent measures on plant measurements or chemistry, for instance. We can see from Table 1 the changes vary widely. This isn’t a problem if it is these, and only these, measures upon which crucial decisions will be made. Otherwise, the exact physical or biological state that defines critical should be known and agreed upon before a critical load in any substance can be discovered. Is it growth rates of particular species beyond or below a certain point? Is it the amount of accumulated detritus? Of all plants? Only some? Is it a specific soil level of N?A ratio of N to K or P in dried plant matter? All species? Only some? Is it a mix of species in which a favored species is too high or too low? …
Whatever critical load is, it cannot change from one thing to another; change in measure, that is. Change in itself is neither good nor bad. That the different studies that showed, for instance, how the length of a particular Sphagnum species is changed on average in some way is not, by itself, of interest. It must be specified why some level of growth, if only growth is considered, is good or bad in some decisional manner.”

Onze reflectie op de problemen van KDW is niet nieuw, met dien verstande dat wij als eersten deze kwestie in detail hebben geanalyseerd. Gary Lovett bijvoorbeeld, in zijn Critical issues for critical loads, stelt onder andere het volgende:

“… What constitutes “significant harm”? What if the critical load is zero or too low to be quantified? Should policies be set to protect the most sensitive species, or should some of those species be compromised for the sake of achievable emission targets?”

De Vries et al. reageren op de gebruikelijke wijze (met nadruk):

“Deze kritiek snijdt volstrekt geen hout. Er bestaan duizenden publicaties over de effecten van zure depositie, waaronder effecten op de chemische bodem- en bladsamenstelling, een onbalans in voedingsstoffen en daarnaast relaties tussen die samenstelling en effecten op wortelschade, bladverkleuring, bladverlies, afname in plantensoorten enzovoorts. Net zoals de gezondheid van een mens door bijvoorbeeld vele indicatoren in het bloed of de urine wordt vastgesteld op basis van talloze medische publicaties, geldt dat evenzeer voor de gezondheid en het functioneren van een ecosysteem. We weten wel degelijk dat die indicatoren ‘daadwerkelijk van belang’ zijn.”

Dit commentaar maakt pijnlijk duidelijk dat de Vries et al. hier werkelijk niet begrijpen wat wij gedaan hebben in ons artikel.

De auteurs grossieren in platitudes terwijl wij in onze publicatie juist heel precies belangrijke ‘critical load’ artikelen hebben geanalyseerd op methoden, technieken, experimentele opzet, statistische behandeling van data, enzovoort.

Uit die uitgebreide en nauwkeurige analyse blijkt dat er heel veel problemen zijn met ‘critical load’ studies en dat nog wel op meerdere terreinen en niveaus tegelijkertijd.

De Vries et al. trachten dus met de referentie naar “duizenden publicaties” deze exact gedefinieerde en besproken kwesties zonder enig commentaar weg te wuiven. Dat is niets anders dan ‘science by handwaving’ en dát heeft niets met wetenschap te maken.

Het is alsof de auteurs bewijs vinden voor de mogelijkheid van persoonlijke mobiliteit door op afstand te wijzen naar duizenden auto’s die geparkeerd staan naast een ‘wetenschappelijk gerunde’ autoproductiefaciliteit, terwijl wij bij een aantal van die auto’s daadwerkelijk ‘onder de motorkap’ hebben gekeken en gerapporteerd hebben dat koppelingen en/of de transmissies en/of krukassen enzovoort ontbreken.

Anders gezegd: de aanwezigheid van duizenden auto’s op een fabrieksterrein zegt niets over de daadwerkelijke mobiliteitswaarde daarvan voor personen die overwegen één van die auto’s aan te schaffen.

Ons advies: niet doen! Ze zien er mooi uit maar ze kunnen niet voor- of achteruit.

KDW zijn niets anders dan deze immobiele auto’s: beleid dat gebruik maakt van KDW gaat ook nergens heen maar kost wel heel veel geld en werkgelegenheid.

Eén van de problemen die wij bespreken, en zoals gezegd er zijn er meerdere, is het veelvuldig, onkundig én achterhaald gebruik van statistische significantie, waarmee als kritisch beschouwde onderzoeksuitkomsten, want ‘significant’, geen waarde hebben (met nadruk):

“In many of the experiments, biological measures were compared between conditions with added-N (at many levels) and a control, with N usually at ambient levels. If the difference between control and the other levels was “statistically significant,” that is a null hypothesis significance test evinced a wee P-value. This, by itself, is evidence of very little. Even tiny differences, which would make no change in any possible decision, can be “significant.” A P-value is only that chance that, if no differences existed, a test statistic would exceed some level in new experiments (it actually means even less than this, but this is close enough …). In any case, it is clear that statistical “significance” by itself cannot be used to define what is or is not critical. …”

Dat de Vries et al. opmerken dat “[h]et toepassen van statistische significantiegrenzen, wat hij [Hanekamp] ook bekritiseert, … algemeen geaccepteerd wetenschappelijk gebruik [is]” kan wellicht rekenen op applaus van het lezerspubliek van NatureToday, maar maakt geen enkele indruk op statistiek kenners zoals collega Briggs en uw waarde blogger.

Het laat zien dat de Vries et al. evident niet op de hoogte zijn van de ontwikkelingen in een voor iedere onderzoeker belangrijke discipline, namelijk de statistiek.

De Nature-publicatie van Amrhein et al. (2019) met de veelzeggende titel Retire statistical significance laat geen nanometer ruimte voor onduidelijkheid.

Meer dan 800 onderzoekers, die van de statistische hoed en de rand weten, hebben deze publicatie ondertekend.

Dat laatste heeft dus niets met het abjecte consensus gedachtegoed te maken maar met de door de ondertekenaars welbegrepen notie dat gebruik van statistische significantiegrenzen wetenschap ondermijnt, omdat dat leidt tot nonsens.

Hurlbert et al. (2019), in hun artikel Coup de Grâce for a Tough Old Bull: “Statistically Significant” Expires, merken over statistische significantiegrenzen het volgende op (met nadruk):

“Statisticians and other scientists endorsing the propositions (1) that in research articles all use of the phrase “statistically significant” and closely related terms (“nonsignificant,” “significant at p = 0.xxx,” “marginally significant,” etc.) be disallowed on the solid grounds long existing in the literature; and (2) that direct formal requests be made to the editors and editorial boards of journals to modify their instructions to authors to include a disallowance of manuscripts that do not adhere to the above proscription.”

Kortom: in weerwil van de opmerkingen van de Vries et al. is het wetenschappelijk bon ton om statistische significantiegrenzen nooit (als in nooit!) meer te gebruiken of er zelfs maar aan te refereren.

Dat heeft tot gevolg dat veel gepubliceerde ‘critical load’ studies geen inzicht geven in het bestaan van KDW van enige serieuze precisie voor onderzochte ecosystemen.

Dat hebben we laten zien in onze studie en de Vries et al. halen er de schouders over op; uit onwil of onkunde. Wie het weet mag het zeggen; ik gok op de tweede.

In het vervolg blijven de auteurs in vage algemeenheden spreken terwijl wij, zoals gezegd, met precisie kwesties voor het voetlicht brengen. In hun bespreking van experimentele studies bijvoorbeeld stellen de auteurs dat in:

“… stikstofadditie-experimenten worden effecten van verschillende hoeveelheden toegediend stikstof, in verschillende vormen, op de vegetatie (en de bodem) onderzocht en vergeleken ten opzichte van een controleplot zonder stikstoftoediening. Het grote voordeel van deze methode is dat de effecten uitsluitend aan stikstoftoediening kunnen worden toegeschreven; alle andere gebiedskenmerken zijn namelijk gelijk.”

Wij hebben laten zien dat dat allerminst het geval is. Ten eerste: achtergronddepositie in vrijwel alle studies worden als jaar gemiddelden gegeven die afkomstig zijn uit allerlei databases waarvan de datakwaliteit moeilijk te achterhalen is.

Die jaar gemiddelden worden ook nog eens gebruikt als ware het precieze waarden, wat ze niet kunnen zijn. Seizoensafhankelijke variabelen, als tweede, worden zelden geadresseerd.

Je zou toch achtergronddeposities nauwkeurig, in termen van onzekerheden én variabiliteit, willen weten door eigen metingen te verrichten, voordat de effecten van stikstofadditie kunnen worden onderscheiden van die achtergrond!

Trouwens: bij een dergelijke experimentele opzet zijn er nog steeds heel veel gebiedskenmerken die verschillen. Niets is ooit gelijk. Dat kennen we maar al te goed uit de epidemiologie.

Voordat ik deze blogpost afrond zal ik de (te) veel gebruikte term onzekerheid bij de kop pakken. De Vries et al. hebben daarover het volgende te melden (met nadruk):

“Het is echter volkomen juist dat die KDW’s een intrinsieke onzekerheid hebben. Algemeen kan worden gesteld dat de onzekerheid in de landelijk gemiddelde KDW relatief klein is, maar dat de onzekerheid in de KDW op een gegeven plek (zoals een deel van een Natura 2000-gebied) groot is. Hoewel je met modelberekeningen tot unieke waarden kunt komen voor Natura 2000-gebieden, die nu voor het beleid worden gebruikt om de overschrijding in KDW te berekenen, kan er in werkelijkheid lokaal sprake zijn van een onzekerheid die gemakkelijk kan oplopen tot circa 50 procent. Het gebruik van unieke gemiddelde KDW’s, evenals unieke gemiddelde depositie op een bepaalde plaats is daarom een gemiddelde schatting die lokaal zeker onderhevig is aan een forse onzekerheid. Dat principe geldt overigens precies zo voor de schattingen van de huidige N-depositie. Bedenk echter: onzekerheid gaat beide kanten op: De KDW kan lokaal zowel 50 procent hoger als lager zijn. In werkelijkheid zul je op plekken waar een gemiddelde waarde tot overschrijding leidt soms geen overschrijding hebben, maar het omgekeerde is evenzeer het geval. Als het gaat om het areaal aan natuurgebieden waarvan de KDW is overschreden, dan is de onzekerheid veel lager.”

Wat de heren vergeten te melden is KDW nog steeds worden geadverteerd én gebruikt als harde ‘unieke’ getallen in beleid, ongeacht onzekerheden.

Hoe dat ook zij, deze geciteerde bespreking van onzekerheid is zo onvoorstelbaar fout dat het misplaatste idee dat “unieke KDW-waarde per natuurgebied” een zinvol concept zou zijn daarbij verbleekt.

Laat ik deze ondeugdelijke onzekerheidsdiscussie proberen te verhelderen met behulp van de neus van farao Ramses III (1155 BC; dank aan collega Briggs). Vraag: wat is de lengte van zijn neus?

Dat kan ik natuurlijk niet zo maar proefondervindelijk achterhalen, dus probeer ik de gemiddelde neuslengte van heel verschillende mensen in diverse werelddelen te bepalen met behulp van een internet enquête.

Ik houd ook nog eens straatinterviews met een liniaal in de hand.

Procedure: door het gemiddelde te nemen van mijn lokaal en mondiaal verzamelde antwoorden kan ik met een “± neuslengte x”, dus met een onzekerheidsmarge van ± y millimeter, een schatting opstellen van de neuslengte van Ramses III. Toch?

Niet dus.

Wat blijkt: uit de historische gegevens van deze keizer die ik later dan mijn onderzoek onder ogen krijg, komt naar voren dat de neuslengte van deze farao 0 cm was. Hij heeft zijn neus namelijk verloren in één van zijn roemruchte militaire campagnes.

Onzekerheid is dus niets anders dan gebrek aan kennis over iets dat nooit verholpen kan worden met het nemen van gemiddelden van, in dit voorbeeld, neuslengtes van geënquêteerden.

Je zou dit de ‘drogreden van de neus van de keizer’ kunnen noemen.

Moraal van dit verhaal: ik kan niets (als in niets!) zinvols zeggen over werkelijke waarden van KDW en depositie modellering uitkomsten met AERIUS/OPS met behulp van middelingen van onordelijk vastgestelde schattingen van onbekende kwaliteit, ongeachte de schaalgrootte waarop die gemiddelden van toepassing zouden zijn.

Dat impliceert ogenblikkelijk dat onzekerheden alleen dán ‘beide kanten’ op gaan als je ‘werkelijke waarden’ van iets weet, zoals bij temperatuurmetingen, of de ijking van gewichten, of de bepaling van windsnelheden.

Dit ‘beide kanten’-verhaal is absoluut niet van toepassing op KDW en AERIUS/OPS depositie modellering; verre van zelfs.

Middelingen van rommelige KDW-schattingen, nogmaals zie ons artikel, leveren dus geen betere maar juist veel slechtere waarden op met toenemende en onbekende (!) onzekerheden, ongeacht de schaal waarop KDW zouden functioneren.

Als proefondervindelijk toetje merk ik op dat gebleken is dat opschaling van geschatte KDW van lokaal naar regionaal/landelijk niveau de bijbehorende onzekerheden toenemen, niet afnemen, dan alleen dat die onzekerheden überhaupt ontbreken.

Go figure!

Voor de waarde lezers van deze blogpost moge het duidelijk zijn dat ik van de door de Vries et al. gepresenteerde janboel niet onder de indruk ben.

Het is geen wonder dat niemand discussie wil.

En dan te bedenken dat dit foutenfestival de plaats is waar beleidsmakers en politici hun ‘kennis’ opdoen voor huidig en toekomstig beleid.

De oproep van mijn oude vader is hier meer dan op zijn plaats: “ergert u niet maar verbaast u slechts!”. Dat doe ik al meer dan 8 jaar in dit ondermaatste discours dat de term ‘wetenschap’, blijkbaar, niet waardig is.

Dit alles staat los van het feit dat nog steeds niemand de hoogstnoodzakelijke brede maatschappelijke kosten-baten analyse van het KDW/AERIUS-OPS-beleid heeft ondernomen!

Dát begrijp ik nu beter dan ooit.