Byg et rensningsanlæg til dine data

Fejl i data er et permanent og påtrængende problem. Ingen virksomhed ønsker vedvarende at fornærme kunderne ved at stave navne forkert, sende breve til afdøde ægtefæller eller at sende det rigtige tilbud til den forkerte person. Men det sker hver dag.

Også på beslutningstagerens niveau, hvor data danner beslutningsgrundlag for chefmødet, for næste innovationsprojekt, for belønning af medarbejdere og for den næste store ordre eller kampagne. Også her spiller fejl i data en afgørende rolle.

Hvis man ønsker at faktabasere sine beslutninger, så strømmer data heldigvis konstant ind i virksomheden. Men jeg har et godt råd til ledere på alle niveauer. Det bygger på mange års erfaring med at hjælpe virksomheder med deres data. Test kvaliteten af de data, du præsenteres for. Foretag en stikprøve og mål datakvaliteten.

Der plejer at være styr på datakvaliteten i regnskabsdata, men hvordan ser det ud i de kunderettede aktiviteter? Kundedatabasen, produktkataloget og ordremodtagelsen? Ordsproget: ”garbage in - garbage out” er i den grad sandt i forhold til datakvalitet. ”Garbage in” betyder ikke bare data med f.eks stavefejl i kundenavne, som kan være pinlige nok. Det er langt værre. Dubletter i kundedatabasen og i produktkataloget betyder ikke så meget for den enkelte transaktion, men de har fuldstændig afgørende betydning, når man kigger på tværs af data.

For eksempel hvis man skal afgøre, hvor mange kunder der findes i et segment. Eller hvis man ønsker at fastslå kundens samlede engagement før en samtale med kunden. Dirty data is a business problem - not an IT problem. Det siger en datakvalitets-ekspert fra analysefirmaet Gartner Group, som estimerer, at i 2007 er 25 pct. af de kritiske data fejlbehæftede i verdens største virksomheder. Der findes ikke en virksomhed på denne planet uden et problem med datakvalitet. Selv hos de virksomheder, som anerkender at have et problem, har de fleste en tendens til at undervurdere problemet.

Datakvalitet er ikke et statisk problem, og derfor kan man ikke løse problemet en gang for alle. Datakvalitet er et løbende indsatsområde - et program - som kræver fokus - og nogen gange et kulturelt skift.

Jeg er helt enig med Gartner Group, som står for disse synspunkter, og jeg foreslår at man bygger et ”rensningsanlæg” til sine data.

Det er nærliggende og intuitivt rigtigt at sige: Vi vil have nul fejl. Vi må rense vores data én gang for alle. Det skal være nu, og det skal ske dér, hvor fejlene opstår. Men det er faktisk en dyr og ineffektiv måde. Rensningsanlægget bygger i stedet på den nøgterne erkendelse, at man ikke kan forhindre, at snavsede data kommer ind i virksomheden. Årsagen er, at data kommer ind fra flere og flere kanaler: Internet, mails, automatiserede ordresystemer og fra de regneark, som vi selv producerer.

Med en anden tankegang kan man effektivt og billigt bekæmpe de snavsede data. Virksomheden etablerer en proces, hvor data regelmæssigt bliver ”profileret”. Det vil sige, at man undersøger og måler sin datakvalitet. Man anvender et dedikeret software-værktøj, som er sprog-intelligent og data-intelligent. Denne software bryder data op i små delelementer så som fornavn, efternavn, adresse, titel, produktkode og produktnavn også selv om ordene er behæftede med stavefejl. Kombinationen af alle disse oplysninger betyder, at softwaren selv og helt automatisk finder næsten alle dubletter i virksomhedens data ved hjælp af en sandsynlighedsberegning.

Erfaring viser, at sådan et rensningsanlæg automatisk identificerer mellem 50 og 75 pct. af fejlene i data. De resterende fejl på vej op mod de 100 pct. finder man ved at opbygge regler i et datakvalitetsværktøj. På den måde kan rensningsanlægget finde både de konkrete fejl, virksomheden allerede har identificeret, og fremtidige fejl af samme type. 100 pct. når man aldrig, men rensningsanlægget er den sikreste vej at gå.

Hvorfor vaske de beskidte underbukser med knofedt og vaskebalje, når vaskemaskinen er opfundet?

BRANCHENYT
Læs også