När man lär sig hur man går igenom datarensningsprocessen ger övning verkligen färdighet. Även om du måste anpassa ditt tillvägagångssätt beroende på vilket projekt du arbetar med, kommer vissa kritiska kontroller alltid att vara relevanta.
Varför är datakvalitet viktig?
Dataanalys är grundläggande eftersom det kan ha en betydande inverkan på ett företag. Från att analysera målgrupper till att bekräfta om ett produkt- eller tjänsteutbud ska utökas, att ha ren data att arbeta utifrån är avgörande för i stort sett alla beslut som ett företag fattar. De negativa följderna av att arbeta från smutsiga data är långtgående.
Vilket första steg bör en dataanalytiker ta för att rensa sin data?
De två första stegen i denna datarensningsmetod bör tas för varje enskilt projekt. Det kommer att säkerställa att du inte behöver göra jobbet igen i händelse av felkommunikation, eller gå tillbaka och lägga till analysen i efterhand:
Spara en säkerhetskopia av originaldata
Lita på oss; även de mest erfarna analytikerna gör misstag. Du vill ha originaldata om några fel görs i rengöringsprocessen. Det kan vara så att du tar bort information som du anser vara oviktig, bara för att senare få ny information som visar att den raderade informationen faktiskt var användbar.
Att behålla originalet ger också sinnesfrid. Istället för att ligga vaken på nätterna och undra om du gjort ett misstag kan du hoppa in i originalet, dubbelkolla informationen och antingen vara säker på att du har gjort rätt eller åtgärda felet.
Förstå orsaken bakom projektet och bekräfta de värden du kommer att arbeta med
Det kan kännas som om du är till besvär, men tolkningen kan vara så bred. Närhelst du blir ombedd att analysera en datamängd, ställ tillräckligt många frågor för att förstå varför projektet genomförs, vilka datamängder som är väsentliga OCH vilka uppsättningar som skulle vara användbara. Föreställ dig hur frustrerande det skulle vara att slutföra ett projekt bara för att få en fråga, vilket innebär att du måste filtrera igenom all data igen för att hitta de mått som skulle svara på frågan.
Ta bort mätvärden som inte är relevanta
Okej, nu är det dags att komma till de bra sakerna, de saker du fick ut på fältet för att göra! Dataanalysprojekt börjar med att sålla igenom information och fastställa nyckelmått som du vill basera din utvärdering och rekommendationer på. Så nu är det dags att ta bort allt som inte hjälper dig. Det inkluderar information som är värdefull, men inte inom ramen för detta projekt.
Kontrollera om det finns dubbletter och strukturella fel
Duplicering sker av många anledningar, särskilt om du har varit tvungen att kombinera data från olika källor, så det är viktigt att gå igenom stegen för att kontrollera och ta bort kopior i varje projekt du genomför.
Små fel
När vi säger små fel hänvisar vi till saker som stavfel, skiftlägesdifferentiering i rubriker, blanksteg och stavfel (vilket är när du till exempel kräver att alla totaler ska ha tre siffror; därför skulle allt med mindre än tre siffror behöva läggas till nollor till fronten), vilket verkligen kan förstöra en analys.
Namnkonventioner
Något annat att hålla utkik efter är udda namnkonventioner, vilket kan hända om du slår samman datamängder. Ett exempel skulle vara en avdelning som använder ‘N/A’ och en annan som använder ‘Ej tillämpligt’. De betyder båda samma sak men kommer att kategoriseras separat. Du måste dubbelkolla konsistensen så att du inte slutar med delad data.
Den goda nyheten är att det finns flera sätt att lokalisera och fixa saker som stavfel istället för att kontrollera dem manuellt, vilket ökar chanserna att missa några; vi är alla människor trots allt.
Saknade värden – hur rensar du inkonsekvent data?
Se till att du också överväger att sakna värden, som du kommer att stöta på oftare än inte. Ha en plan på plats för hur du ska reagera på dessa. Till exempel, om en viss kolumn saknar många värden kan det vara bättre att ta bort den här kolumnen istället för att arbeta med information som du inte kan lita på helt.
Saknade värden kommer att kontaminera din data; så om du inte tar bort dem från bilden helt och hållet måste du reagera på dem istället för att ignorera dem. Det kan betyda något så enkelt som att gå tillbaka till projektledaren, förklara situationen och fråga hur du ska gå tillväga.
Alternativt kan du göra ett utbildat antagande och fylla i de saknade värdena med en approximation. Gå dock försiktigt här och se till att du flaggar när du gör detta. Ett annat alternativ är att helt enkelt se till att alla modeller visar att data saknas och visar dem därefter.
Tänk på dataavvikelser
Om du stöter på information som skiljer sig mycket från allt annat måste du analysera om det är ett misstag. Om dina undersökningar visar att en uppgift är felaktig kan den filtreras bort. Däremot kan en extremvärde i slutändan vara användbar. Så filtrera inte bara bort det eftersom det inte ser rätt ut. Gräv lite djupare för att se om det har något hemligt värde.
Datatypkonvertering
Alla dina data måste vara enhetliga så att alla automatiska ändringar du gör är korrekta. Allt som behöver konverteras men inte kan ska flaggas så att du reagerar på det i enlighet med de utvärderingar du gör. Att konvertera dina data kommer att göra analysen mycket enklare.
Slutkontroller
Dina data ser antagligen oklanderliga ut nu, så mycket att du blir bråttom att hoppa in och börja din faktiska analys. Men håll ut! Ta dig tid att utföra några sista kontroller för att vara 100 % säker på att din data inte bara är ren, utan spic and span.
Det kan vara värt att skapa en kontrollmall, särskilt om det finns andra dataanalytiker i ditt team så att ni alla sjunger från samma psalmblad. Mallen kan innehålla frågor som:
Är uppgifterna vettiga? Följs alla lämpliga regler? Kan du med en översiktlig blick avgöra om teorin du försöker bevisa kan besvaras?
Detta kan betyda skillnaden mellan att fortsätta med analysen eller att förbättra data för att säkerställa kvalitet och korrekta slutsatser.
Nu är det dags att dyka in och börja din faktiska analys med sinnesro att du arbetar med ren data av hög kvalitet.
Om du är intresserad av en dataanalyskarriär och vill utbilda dig för att snabbt komma in i branschen, ansök om plats på vår Data Science Bootcamp.