Waarom datakwaliteit om een top-down benadering vraagt en niet andersom!

Julien Hoornweg, Data architect bij RVO

Julien Hoornweg, Data architect bij RVO

Datakwaliteit als graadmeter voor de datamanagementactiviteiten van een organisatie. Waarom is actieve datakwaliteitsmanagement belangrijk, hoe hangt datakwaliteit samen met andere datamanagementprocessen en waarom is een top-down benadering beter dan een bottom-up benadering? Wij vroegen het aan Julien Hoornweg, Data architect bij RVO.
Lees hieronder zijn antwoorden en uitleg op deze en andere vragen.

 

Waarom is het belangrijk om actief met datakwaliteit bezig te zijn?

Het meten van datakwaliteit geeft inzicht in het effect van de datamanagementactiviteiten van de organisatie. Actieve datakwaliteitsmanagement is belangrijk omdat iedere verandering in record, tabel, set aan tabellen of bestanden kan resulteren in een mogelijk kwaliteitsissue. Het vak datakwaliteitsmanagement is het onderzoeken waar het risico van een afwijking in de data zit die de meeste nawerking heeft op de bedrijfsvoering en hierop de juiste acties uitzetten, zodat het risico verkleind wordt. Dit is een continu proces, waarbij een organisatie bij iedere verbeter-iteratie een stapje dichterbij is om beslissingen te maken op kwalitatief hogere data.

 

 

En hoe kan het dat datakwaliteit vaak niet hoog op de bestuurlijke agenda staat?

Uit ervaring merk ik dat discrepanties in de data vaak vanuit de operatie wordt geconstateerd en hierop wordt geacteerd zonder dat data governance en mandaat ingeregeld is. Data governance smeedt de relatie tussen datamanagement functionaliteiten en de bestuurlijke agenda. Vaak zie je dat organisaties zonder data governance programma hun datamanagementactiviteiten niet op de bestuurlijke agenda krijgen.

 

 

Wat zijn uitdagingen bij het selecteren van datakwaliteitsdimensies?

Het selecteren van dimensies is niet heel erg ingewikkeld. Er zijn verschillende raamwerken die een datakwaliteitsspecialist kunnen helpen om de sluitende datakwaliteitsdimensies te selecteren. Het probleem vindt zich echter op een ander niveau plaats. Een datakwaliteitsdimensie met betekenis voor de organisatie is een bouwblok van een datakwaliteitsraamwerk, welke de verbindende factor is tussen de bestuurlijke lijn en de datamanagementactiviteiten. Wanneer een van beide het datakwaliteitsraamwerk niet herkent als sturingsmechanisme dan heeft het selecteren van datakwaliteitsdimensies maar minimale waarde.

 

 

Waar is datakwaliteit in een organisatie meestal belegd en onder welke bestuurlijke rol hoort datakwaliteit eigenlijk?

Datakwaliteit is vaak op operationeel niveau belegd in een ICT of data-afdeling. Dit is vaak organisch ontstaan op plekken waar data integraal samenkomt. Diensten waar data integraal samenkomt doen dit vaak voor de gehele organisatie, waardoor het onduidelijk wordt wie de eigenaar van de data is. En het is lastig te pinpointen welke bestuurlijke rol de verantwoordelijkheid van de datakwaliteit draagt.

 

 

Bij organisaties waar data governance geïmplementeerd is, zie je vaak dat de centrale dienst het meten van kwaliteit levert en de dienst dit in opdracht van een CDO doet. Aanvullend hieraan wordt de inhoudelijke datakwaliteit door de bestuurders van primaire processen actief gemanaged. Wat inhoudt dat ze zowel aangeven waar de data aan moet voldoen, maar ook acties uitzetten om de data te corrigeren of het proces te verbeteren zodat de datakwaliteit structureel verbeterd wordt.

 

 

Hoe hangt datakwaliteit samen met andere datamanagementprocessen in organisaties?

Bij datakwaliteitsmanagement toetst men de data vereisten zodat de data voldoet aan de eisen, die men in verschillende datamanagementinitiatieven aan de data, stelt, voldoet. Veel regels voor datakwaliteit kunnen worden afgeleid van andere datamanagementinitiatieven. Zoals bijvoorbeeld bedrijfsregels uit datamodellen, de compleetheid van de metadata zoals in metadatamanagement requirements. Of het bestaan van Master Data Management initiatieven, waarbij een vereiste is dat de data van hoge kwaliteit is.

 

 

Waarom is een top-down benadering voor datakwaliteit beter dan een bottom-up benadering?

Bij een top-down aanpak begin je bij de noodzaak af te stemmen op het bestuurlijk niveau, bij een bottom-up benadering begin je bij het inzichtelijk maken van afwijkingen die vaak op bestuurlijk niveau niet veel zeggen. Wanneer een organisatie kiest voor een bottom-up benadering loopt een organisatie vaak tegen het probleem aan dat het initiatief niet of niet passend op de bestuurlijke agenda komt te staan en het mandaat voor een continu proces neer te zetten minimaal is.

 

 

Wat voor type organisatie en cultuur is nodig voor het borgen van datakwaliteit?

Wanneer organisaties kwaliteit georiënteerd zijn, maakt het de implementatie processen voor het borgen van datakwaliteit een stuk gemakkelijker. Het borgen van datakwaliteit scheelt niet heel veel van andere kwaliteitsmanagement processen. Je een team nodig die quality assurance continu op de agenda zet en je hebt een team nodig die toetst of de data voldoen aan de gemaakte kwaliteitsafspraken.

 

 

Waarom vormen het ketendenken, ‘whats in it for me’ en verbinding vaak de sleutel tot betere datakwaliteit?

Net als werkprocessen stroomt ook data door ketens, een fout in het begin van een keten heeft gevolgen voor de kwaliteit van de data aan het einde van de keten. Het mooie van keten denken is dat het heel goed het doel van de data kent, de uitdaging van ketendenken is ook de ondersteunende processen bij de keten te betrekken.

 

 

Wat zijn valkuilen bij het continu verbeteren van datakwaliteit?

De grootste valkuil die ik meemaak is dat men kwaliteit gaat verbeteren terwijl de kosten niet overeenkomen met de baten. Wanneer acties niet voldoende waarde opleveren, resulteert dat een zekere mate van vermoeidheid zonder dat de mensen er beloond voor worden. Daarom is het belangrijk dat er bij het implementeren van formele business rules altijd kosten-baten analyses worden gedaan.

 

 

Hoe kunnen ontwikkelingen als Artificial Intelligence, Machine Learning, data science bijdragen aan de kwaliteit van data?

Binnen het domein datakwaliteit wordt gesproken over data profileren. Data profileren is op basis van beschrijvende statistieken inzicht krijgen in de data. Het gebruik van bovenstaande methodieken kunnen deze beschrijvende statistieken aanvullen, maar ook voorspellingen met een bepaalde zekerheid doen of bepaalde waarden goed of fout ingevuld zijn. Een voorbeeld hiervan is dat bij datakwaliteitsmanagement-initiatieven Artificial Intelligence (AI), Machine Learning (ML) en Data Science (DS) op verschillende manieren worden ingezet zoals tijdens de exploratie naar bijvoorbeeld potentiële inconsistenties of duplicaten over een grote groep data. 

 

Verder helpen AI, ML en DS ook bij sommige organisaties met het corrigeren van bijvoorbeeld inconsistenties in de data. Nu noem ik maar een paar potentiële mogelijkheden, maar dat gezegd te hebben, zijn er veel meer perspectieven te bedenken hoe deze ontwikkelingen helpen bij het verbeteren van datakwaliteit.

 

 

Wilt u meer kennis over datakwaliteit en het verankeren van datakwaliteit in de organisatie? Kom naar de masterclass Datakwaliteit en data governance. Experts van RVO, Rijkswaterstaat en Achmea nemen u mee bij het structureel borgen en verbeteren van de kwaliteit van data.

Share

Download de brochure