Actualiteit

Werking vaccins tegen corona onderbouwd op basis van data

De afgelopen periode heeft ons datateam databronnen die via het RIVM zijn aangeboden geanalyseerd. Het doel voor ons datateam was om opgedane Python kennis direct in de praktijk toe te passen. In ons eerste artikel leggen we de opzet van ons onderzoek uit. In dit artikel delen we de resultaten en conclusies die we hebben kunnen trekken na het analyseren van de data.

Onderzoek databronnen

Aanvankelijk zijn we begonnen met vier websites die wereldwijd corona-informatie publiekelijk delen. We wilden de hypothese toetsen dat deze vier websites vergelijkbare informatie bevatten. De vier websites waar het om gaat zijn:

  1. European Centre for Disease Prevention and Control (ECDC)
  2. Coronavirus Disease Situation Dashboard (WHO)
  3. Our World in Data – COVID-19 – Statistics and Research (OWID)
  4. Worldometer

Door de data van deze website met elkaar te vergelijken hebben we gezien dat:

  • ECDC en OWID dezelfde data bevatten;
  • OWID, WHO en niet altijd dezelfde gegevens rapporteren. Dit wordt onder andere verklaard door het tijdstip waarop de sites bijgewerkt worden (eenmaal per dag vs. iedere 5 minuten) en doordat soms correcties worden gemaakt die de volgende dag worden gecorrigeerd;
  • De trend per website hetzelfde is.
    Omdat de trend per website hetzelfde is accepteren we de hypothese dat de sites dezelfde informatie bevatten.

Welke vaccins hebben een gunstig effect op bescherming tegen COVID-19?

De volgende stap was het toetsen van de hypothese dat; ‘vaccins die nu al worden gebruikt in de wereld een gunstig effect hebben op bescherming tegen het coronavirus’. Redenen hiervoor waren berichten dat onderzoekscentra in de wereld dit vermoeden ook hebben. Voor deze analyse hebben we data van OWID gebruikt. Dit omdat deze website onder andere het aantal besmettingen en doden per miljoen inwoners per land bevat en ook het aantal inwoners per land. Deze gegevens maken het mogelijk om landen beter met elkaar te vergelijken.

De WHO heeft informatie over alle vaccins die wereldwijd werden of worden gebruikt tot en met 2018. Deze gegevens hebben we gecombineerd met de coronagegevens van OWID. Niet alle vaccins hebben we in de gehele analyse meegenomen; sommige vaccins worden maar in zeer beperkt aantal landen gebruikt. Daarom hebben we 8 van de 45 vaccins niet meegenomen.

Bij het bepalen van het verband tussen het vaccin en het aantal doden in het land hebben we:

  1. Cijfers per land gecorrigeerd voor het aantal inwoners (gewogen gemiddelde).
  2. Gebruik gemaakt van het laatst bekende dekkingspercentage van een vaccin in een land. Dit kan betekenen dat we cijfers van vóór 2018 hebben gebruikt voor een land.
  3. Landen waar het vaccin niet werd gebruikt, zijn niet meegenomen in deze correlatie.

Het resultaat van deze analyse staat in de tabel hieronder, waarbij de vaccins gesorteerd zijn o.b.v. de ‘correlatie’ (verband). Een correlatie is een getal tussen -1 en +1:

  • -1: de vergeleken entiteiten vertonen een negatieve correlatie; dit is wat je hoopt te zien in onze analyse.
  • 0: de vergeleken entiteiten vertonen geen correlatie.
  • +1: de vergeleken entiteiten vertonen een positieve correlatie.
Vaccins_bcg-corona

BCG (vaccin tegen tuberculose) is het vaccin dat het beste scoort

Uit bovenstaande tabel valt af te leiden dat BCG (Bacillus Calmette-Guérin): een vaccin tegen tuberculose, van alle vaccins het beste scoort. Dit blijkt ook uit een andere analyse waarbij we in Power BI per vaccin de correlatie grafisch hebben weergegeven. In onderstaand figuur zie je het verband tussen de inentingsgraad op de x-as en het aantal doden per miljoen inwoners in een land op de y-as voor de landen in Europa. De diameter van het bolletje is een maat voor het aantal inwoners van een land.

Voor een perfecte negatieve correlatie zou je verwachten dat de landen op een schuine lijn liggen die van linksboven naar rechtsonder loopt. Opvallend aan deze figuur:

  • Nederland ontbreekt omdat BCG niet in Nederland is gebruikt.
  • Griekenland en Portugal wijken af. De reden hiervoor is ons niet bekend.

Een andere interessante aanwijzing is onderstaande boxplot. Hierin zie je de verdeling van landen in drie categorieën:

  1. Landen met een vaccinatiegraad van BCG van 90 – 100%
  2. Landen met een vaccinatiegraad van BCG van 80 – 90%
  3. Landen met een vaccinatiegraad van BCG van 0 – 80%

Langs de y-as staat het aantal doden per miljoen inwoners.

Uit deze boxplot zou je kunnen concluderen dat de zaken die van invloed zijn op het aantal doden in een land, meer significant worden als de vaccinatiegraad van BCG in een land afneemt.

BCG heeft van alle vaccins de grootste negatieve correlatie met het aantal sterfgevallen per miljoen inwoners

Omdat het lijkt dat BCG inderdaad een negatieve correlatie heeft met het aantal doden per miljoen inwoners in een land, hebben we BCG verder onderzocht. We hebben nu ook de landen meegenomen die BCG nooit hebben gebruikt (waaronder Nederland) en we hebben het dekkingspercentage aangepast voor alle jaren dat er geen gegevens waren; het dekkingspercentage is op nul gezet.

De scatter plot voor Europa laat nu alle Europese landen zien. Opvallend is dat voor Europa de correlatie op het oog minder goed is geworden; een aantal grote landen zoals Duitsland liggen niet op de diagonaal. Aan de andere kant zijn er ook een aantal landen linksboven bij gekomen zoals Spanje en België. De correlatie was -0,668 en is gezakt naar -0,721. De correlatie wereldwijd is gezakt van 0,441 naar ongeveer -0,765. Door ook de landen waar BCG nooit is gebruikt als vaccin mee te nemen in de analyse, daalt de correlatie. De negatieve samenhang tussen BCG en de bescherming tegen het coronavirus neemt toe. Dit lijkt een bevestiging voor onze hypothese dat BCG een gunstig effect hebben op bescherming tegen het coronavirus.

Ook de boxplot ziet er nu anders uit. De spreiding in categorie 3 is enorm toegenomen, evenals de outlyers. Ook uit deze boxplot zou je kunnen concluderen dat de zaken die van invloed zijn op het aantal doden in een land, meer significant worden als de vaccinatiegraad van BCG in een land afneemt.

Boxplot-2

Onze conclusie op basis van data

Op basis van de gebruikte databronnen kunnen we concluderen dat OWID, WHO en Wordometer niet altijd dezelfde gegevens rapporteren. Dit wordt onder andere verklaard door het tijdstip waaorp de sites bijgwerkt worden en doordat soms correcties worden gemaakt die de volgende dag worden gecorrigeerd. Omdat de trend per databron hetzelfde is accepteren wij de hypothese dat de sites dezefde informatie bevatten.

Na het verwerken van de data hebben wij sterk het vermoeden dat het BCG-vaccin de kans op infectie met het coronavirus verkleint. De bovengenoemde resultaten die wij gevonden hebben zijn ook gedeeld met verschillende ziekenhuizen, waaronder het Radboud UMC. Voor meer diepgaande analyse is kennis van de situatie per land nodig en vooral medische kennis.

Voor ons als datateam was het een mooi project om actuele data te combineren met tools die wij onszelf eigen hebben gemaakt. Bij Qquest zijn wij continu op zoek onszelf te verbeteren en delen onze kennis gul. Door het delen van onze kennis blijven wij en onze opdrachtgevers groeien. Benieuwd naar wat wij op het gebied van data kunnen betekenen? Bekijk dan waar wij goed in zijn met Data & Analytics.

Meer weten over Data & Analytics?

Lees alles over waar wij goed in zijn met Data & Analytics.

Lees meer

Meer weten over Data & Analytics?

Lees alles over waar wij goed in zijn met Data & Analytics.

Lees meer

Relevante ontwikkelingen