Actualiteit

‘Collectedata’ analyseren voor een optimaal resultaat – data testen

Testen van data is essentieel. In eerdere projecten hebben wij de meerwaarde van datatesten ervaren. Door het testen kunnen we de datakwaliteit waarborgen en hebben we de correcte basis voor mogelijke conclusies. In het collecteproject, in samenwerking met Alzheimer Nederland, besteden we veel aandacht aan datatesten. In deze blog willen we een beeld geven van hoe we datatesten aangepakt hebben. Momenteel zitten we nog middenin het project. In dit eerste deel delen we graag de opzet van het collecteproject.

Collectedata

Het project: inzicht in de collecte-opbrengsten

Wij zijn een kennisorganisatie en delen onze kennis graag. Zo helpen wij graag non-profit organisaties, zoals Alzheimer Nederland. Wij geloven dat onze kennis hen verder kan helpen en wij groeien door het opdoen van ervaring.

Alzheimer Nederland is erg geïnteresseerd in een data-analyse over haar collectegegevens van 2019. Het doel van het project is om Alzheimer aan de hand van de data-analyse van advies te voorzien. ‘Hoe kunnen zij de collecte-inkomsten verbeteren?’ Alzheimer werkt aan een toekomst zonder Dementie! Daarvoor is elke steun welkom en wij helpen graag door onze data-skills in te zetten.

Het uitgangspunt voor de analyse is om te onderzoeken of de collecte-opbrengsten per inwoner en per huishouden kan worden voorspeld op basis van de kerncijfers van het CBS. Het CBS levert ongeveer 100 kerncijfers voor wijken en buurten aan. Door de opbrengsten te correleren met de 100 kerncijfers willen we tot (nieuwe) inzichten komen, die vervolgens met Alzheimer-Nederland worden gedeeld.

De opzet van het datatestplan

Datatesten is een belangrijk onderdeel van data-analyse, omdat hiermee de datakwaliteit gewaarborgd kan worden. Als eerste stap voor het datatesten is er een testplan opgesteld om goed voor ogen te hebben wat er getest moet worden en hoe we dit gaan aanpakken. Er zijn zes eigenschappen die de kwaliteit van data beschrijven:

  • aanwezigheid: is de data beschikbaar?;
  • validiteit: valt alle data binnen een acceptabele range?;
  • volledigheid: is alle benodigde data voor de data-analyse beschikbaar?;
  • nauwkeurigheid: geeft de data weer wat het hoort weer te geven?;
  • integriteit: zijn de relaties tussen de data-elementen en over datasets heen compleet?;
  • samenhang: bevat data die op meerdere locaties is opgeslagen dezelfde waarden?.
Data kwaliteit

We zijn deze eigenschappen een voor een nagegaan en hebben aan de hand daarvan een lijstje met punten gemaakt die we wilden testen. Door deze gestructureerd na te lopen, weet je zeker dat je niets vergeet. Daarnaast stonden op dit lijstje o.a. nog de volgende punten:

  • Zowel vóór als na een bewerking controleren of de kwaliteit van de data onveranderd is.
  • Er wordt gecontroleerd of er geen informatie aanwezig is die in strijd is met de AVG-wet.
  • Er wordt gecontroleerd of de gevonden correlaties juist zijn berekend.

*Zie bron Syncforce voor meer informatie

Overnemen en verwerken van de beschikbare data

Als datateam maken we gebruik van HeidiSQL voor het collecteproject. De originele data van Alzheimer Nederland en het CBS zijn aangeleverd in .csv structuur. Deze gegevens hebben wij vervolgens omgezet naar HeidiSQL. Nauwlettend is in de gaten gehouden of de data correct overgenomen is. Hierbij is bijvoorbeeld gecheckt of het aantal rijen en kolommen overeenkwamen met die in de originele gegevens en of de totale som van belangrijke kolommen hetzelfde cumulatieve aantal weergaf. Dit laatste is een belangrijke controle geldbedragen. Afwijkingen hierin maken de data onbruikbaar. Hieruit zijn verschillende bevindingen gekomen, waardoor we veel fouten hebben kunnen voorkomen. Er bleek bijvoorbeeld dat er één kolomtitel verdwenen was in één van de CBS tabellen. Daardoor was de rest van de waarden een kolom verschoven en stonden alle waarden dus onder de verkeerde kolomtitel. Je kunt je voorstellen dat dit verkeerde conclusies op zou kunnen leveren als het aantal huishoudens in de kolom van het gemiddelde inkomen staat.

Datasheet_Python

AVG-controle

Privacy vinden we belangrijk grondrecht en houden ons aan de AVG-wetgeving. In onze database mocht geen informatie staan die in strijd is met de AVG-wetgeving. Daarom hebben we een AVG-controle uitgevoerd. De aangeleverde data van Alzheimer Nederland was reeds geanonimiseerd aangeleverd. Onze AVG-check diende puur om te checken of er niets over het hoofd is gezien.

Testen hoe de data van Alzheimer Nederland en het CBS op elkaar aansluiten

We hebben getest of de data van Alzheimer Nederland aansluit op de beschikbare data van het CBS. Hierbij is gebleken dat het aantal huishoudens binnen de gemeenten niet overeenkwamen. We zijn nu aan het overleggen met Alzheimer Nederland hoe we hier het beste mee om kunnen gaan. Ook de aansluiting binnen de tabellen van Alzheimer is gecontroleerd. Een voorbeeld hiervan is dat de totale opbrengst van de collectebussen in de tabel “Collectewijk” hetzelfde bedrag weer zou moeten geven als de som van de opbrengst per collectewijk in de tabel “Stratenplan”. Ook hier hebben we meerdere bevindingen opgedaan. Het bleek namelijk dat het aantal huishoudens per gemeente in de tabellen “Coördinatiegebied” en “Collectewijk” niet overeenkwam. Dit zou natuurlijk hetzelfde aantal moeten zijn. Zodra deze bevindingen opgelost zijn kunnen we een betrouwbaar advies geven aan Alzheimer Nederland.

Bevindingen-overzicht

Continu blijven testen

Dit is hoe ver we tot nu zijn met het collecteproject. Het plan voor de komende tijd is om de kwaliteit van de data te blijven monitoren, zowel vóór als na bewerkingen. Als er iets aangepast wordt in de database kan het bijvoorbeeld zijn dat er iets verschoven of per ongeluk verwijderd wordt. Dit willen we natuurlijk zo snel mogelijk ontdekken en verbeteren/corrigeren. Daarnaast gaan we testen of de correlaties die gevonden worden, juist berekend zijn.

Wil je meer weten over ons data gilde? Of ben je benieuwd naar andere projecten die we uitgevoerd hebben? Check dan waar wij goed in zijn met data. Natuurlijk kun je ook contact met ons opnemen als je vragen hebt over het project of ook met ons zou willen samenwerken.

Meer weten over Data & Analytics?

Lees alles over waar wij goed in zijn met Data & Analytics.

Lees meer

Meer weten over Data & Analytics?

Lees alles over waar wij goed in zijn met Data & Analytics.

Lees meer

Relevante ontwikkelingen