Rječnik podataka: kako i najbolje prakse

Rječnik podataka je popis ključnih pojmova i mjernih podataka s definicijama, poslovni rječnik. Iako je to zvuk jednostavno, gotovo trivijalno, njegova sposobnost usklađivanja posla i uklanjanja zbrke može biti duboka. Zapravo je rječnik podataka možda jedan od najcjenjenijih artefakata koje podatkovni tim može dostaviti poslu.

Većina tvrtki ima barem jedan koncept, pojam ili metriku koji se koristi ili tumači različito među timovima. Kad se to dogodi, zabuna zavlada. Donositelji odluka mogu se ne složiti što podaci pokazuju i koje akcije moraju poduzeti. Izvješća među timovima mogu prikazati različite brojeve za istu mjernu vrijednost iz istog izvora podataka zbog neusklađene poslovne logike. Timovi se čak mogu raspravljati o ispravnoj definiciji i braniti svoje travnjake, možda zato što njihova definicija čini njihov broj da izgledaju bolje. Ovo nije dobro za posao.

Nakon što imate rječnik podataka, to je dokument na koji se sve osoblje može pozivati ​​i biti na istoj stranici, olakšava se ukrcavanje novog osoblja lakše, a tim poslovne inteligencije (BI) ima kristalno jasne zahtjeve za implementaciju tih mjernih podataka.

Da budemo jasni, ovdje ne razmatramo sirovu dokumentaciju tablice baze podataka iako je to također važno, već popis poslovnih pojmova i mjernih podataka na višoj razini. Kako poslovanje u cjelini razmišlja o "korisniku", "prihodu" ili "trošku stjecanja"? Imaju li svi isto razumijevanje ili „prodajno područje“, „prosječno vrijeme isporuke“ ili „sesija“? Cilj bi trebao biti da će mlađi, netehnički član osoblja, kao što je agent za usluge kupcima, moći pročitati odjeljak za svoj dio posla i razumjeti odgovarajuće uvjete, ali dovoljno detaljan i točan da uhvati poslovnu logiku tih mjernih podataka.

U ovom postu detaljno ću opisati neke najbolje prakse oko rječnika s podacima i postupak kako ih stvoriti. Ovo nikako nije jedini proces koji će raditi, ali meni je to barem uspio. Pretpostavljam da BI tim vodi ovaj proces. Po mom mišljenju, oni bi trebali posjedovati rječnik podataka i implementaciju metrika u BI alatima.

1. Prikupi pojmove

Prvi korak je sastavljanje popisa pojmova. Odnosno, BI tim trebao bi stvoriti proračunsku tablicu s popisom naziva poslovnih koncepata i mjernih podataka (mjera) te kako se podaci sječu i kockaju (dimenzije). Iako ovo zvuči zastrašujuće, jedan je pristup da se poslovni tim sastavi po poslovnom timu i ispita uzorak svih njihovih standardnih izvještaja i nadzornih ploča. Navedite sve oznake osi s grafikona, zaglavlja stupaca iz tablica izvještaja i dimenzije načina usmjeravanja podataka. Dakle, izvješće koje prikazuje prihod prema teritoriju (za određeno vremensko razdoblje) daje dva ključna pojma: "prihod" i "teritorij". U ovoj fazi samo sastavljate popis naziva pojmova a ne njihovih definicija.

Izlaz je popis imena tima, naziva termina, vrste podataka, vrijednost primjera ili dvije i možda poveznica na primjer izvještaja koji koristi taj izraz. Dodatni stupci koji mogu biti korisni za dodavanje su stupac koji označava je li to dimenzija ili mjera (općenito postoji veći dogovor o dimenzijama nego mjerama) i stupac koji navodi izvor istine.

1. korak: popis pojmova bez definicija

Organizirajte i grupirajte popis prema poslovnim funkcijama, poput financijskih mjernih podataka, marketinških mjernih podataka, mjerenja o uslugama za kupce itd. Možda ćete također htjeti iskopati stvarno generičke dimenzije ("godina", "product_id", "država" itd.) Koje se protežu u mnogim timovi u svoj odjeljak.

Popis vjerojatno nije tako dugačak kao što biste mogli očekivati. To je zato što timovi imaju relativno mali skup mjernih podataka koje pokušavaju pratiti i optimizirati s relativno malim nizom poluga na raspolaganju - na primjer, mrežni se marketing može usredotočiti na nekoliko ključnih aspekata poput kampanje, kanala, potrošiti i segmentirati.

Zatražite od poslovnog tima da pregleda popis, posebno njihov odjeljak i doda bilo kakve nedostajuće pojmove. Ako imaju čvrst set nadzornih ploča i izvještaja, vjerojatno imate opsežan popis. Ako ih nema, to pruža dodatne koncepte koje je vrijedno sakupljati.

2. Definirajte pojmove

BI tim bi sada trebao napraviti prvi prolaz pri pokušaju usporedbe ili stvaranja definicija.

Prvo, izvucite bilo kakve definicije iz bilo koje postojeće dokumentacije. To može biti iz wikija, godišnjih izvješća ili iz stvarnog koda, poput SQL upita ili makronaredbi Excel. Definicije bi trebale biti jasne i nedvosmislene. Ako je jasnije prikazati jednostavnu formulu (kao što je ARPU = total_revenue / number_subscribers), a ne napisati definiciju, to pokažite. Većina osoblja trebala bi biti u stanju razumjeti definiciju, čak i ako treba preći preko nekih termina.

Drugo, sjednite s timovima, jedan po jedan, i zatražite njihovu pomoć da odredite definicije koje nedostaju ili da precizirate definicije. (Napravit ćete bolji napredak počevši s definicijom, čak i ako je pogrešna, nego s praznom ćelijom.) To će možda trebati naprijed i natrag dok ne postignete neki dogovor unutar tog tima. Možda će trebati i neka istraživanja o načinu izračunavanja mjernog podatka.

Važno je da se ne pitate "koja je trenutna definicija?", Nego "kako to treba definirati?" Ako trenutna implementacija nije njihova idealna definicija, ovo je savršena šansa za poslovni tim da postavi svoje idealno stanje. Na primjer, ovo je prilika da se pojednostavi ako ste naslijedili prekomjerno složenu definiciju. Jednom kada se zakrije ta idealna definicija, postoji dodatni pritisak na podatkovni tim, tehnološki tim ili druge dijelove posla kako bi se taj pokazatelj definirao kako je definirano.

3. Identificirajte sukobe

Ovo je ključni korak: iskorijeniti sve izraze u kojima se njegova definicija razlikuje među timovima.

4. Poravnajte se

Za one termine koji se razlikuju među ekipama, dovedite odgovarajuće timove u istu sobu (i zaključajte vrata). Neka raspravljaju o tome kako se i zašto razlikuju.

Za ovaj sastanak trebao bi biti postignut dogovor sa samo 2 ishoda:

* jedan tim pristaje prihvatiti definiciju drugog tima.

* imaju opravdane razloge zbog kojih se razlikuju. U ovom slučaju dogovorite novo ime za jedan ili oba termina.

(Treća opcija kada se oba tima slažu da promijene svoju definiciju u neku zajedničku definiciju je moguća, ali manje vjerojatna.)

Imena trebaju biti onoliko dugo koliko je potrebno da se izbjegne nejasnoća ili zbrka. Ako je „community_adjusted_editba“ prikladniji i prikladniji izraz koji ga razlikuje od uobičajenog „ebitda“, tada upotrijebite taj duži, opisniji izraz. Cilj je ukloniti konfuziju koja ne bi bila preterana.

5. Odjavite se

Odjava glave glave. Ovo je presudno. Ne želite da BI tim definira izraz, a poslovni se tim potajno ne slaže. U tom će slučaju posao krenuti i implementirati vlastitu logiku u Excel, a vi ćete se vratiti na prvo mjesto. Kao stručnjaci za domene i kao ljudi koji će donositi poslovne odluke na temelju tih mjernih podataka, ti vlasnici tvrtki moraju biti u potpunosti spremni.

U Warby Parkeru smo upotrijebili pomoć supredsjednika uprave kako bi zahtijevali da se glave ekipe odjave i to do određenog datuma. Glave timova su zauzete i rječnik podataka se možda čini prioritetnim, čak i ako mogu vidjeti vrijednost. Stoga se ta podrška odozgo prema dolje pokazala vrlo vrijednom.

6. Objavi

Objavite rječnik podataka kao dokument s jednom stranicom na kojem je dostupan cijeloj tvrtki - dakle, ne samo u BI alatu. Te bi definicije trebalo široko razumjeti i usvojiti ne samo izvršitelji, analitičari i donositelji odluka, već i cijelo osoblje. Stoga je vidljivost presudna. Ako tvrtka jako koristi wiki, tamo ih objavljuju. Trebalo bi biti tamo gdje ljudi očekuju.

Koncepcijski, ti pojmovi su neovisni o bilo kojem jedinstvenom sustavu ili izvoru podataka i stoga nisu vezani za BI alat. Međutim, pojedinačne definicije trebalo bi, prema mogućnostima, ugraditi i u BI alate. Ako alat to podržava, kada pokažite mišem iznad neke dimenzije ili mjere, trebali bi se pojaviti definicija i primjer.

S obzirom na to da bi se ove definicije mogle pojaviti na više mjesta, tim podataka trebao bi nastojati automatski generirati rječnik podataka iz jednog izvora, poput tablice baze podataka ili spremišta koda, umjesto da ručno održava statičku tablicu. Na primjer, u Warby Parkeru, naš rječnik podataka nastao je iz Jenkinsovog posla. Ako je spremište modificirano, obnovilo je našu dokumentaciju (namjensko interno web mjesto ili „knjiga podataka” za svu podatkovnu dokumentaciju).

7. Održavajte

Iako bi ključni mjerni podaci trebali biti relativno stabilni, možda postoje opravdani poslovni razlozi zbog kojih se definicija mjernih podataka možda mora promijeniti. Ta promjena i nova definicija trebaju poticati od poslovnog tima. Međutim, trebat će pomoć podatkovnog tima za provedbu promjene i priopćavanje iste.

BI tim trebao bi procijeniti utjecaj promjene prije njezine uvođenja. Na primjer, pripremite grafikon koji prikazuje metriju sa starom i novom definicijom metrike za postavljanje očekivanja kako se brojevi mogu mijenjati.

Tretirajte tu promjenu definicije kao izdanje proizvoda: unaprijed obavijestite o promjeni definicije, recite ljudima što mogu očekivati ​​i dokumentirajte promjenu u rječniku podataka, kao što je zapisnik promjena na dnu dokumenta.

Ne dozvolite da se različiti sustavi povuku iz sinkronizacije; stoga je korisno automatsko generiranje dokumentacije.

Stvaranje rječnika za podatke prema gore navedenom procesu nije mali napor. To će vjerojatno potrajati nekoliko mjeseci jer zahtijevaju razgovore i koordinaciju među mnogim članovima osoblja. To je veliki timski napor, vođen i koordiniran od strane BI tima, ali zahtijeva široku kupnju, suradnju i trud i cvrsto pojačanje od vrha prema dolje.

Ne predlažem da se postupak uzima u obliku kaše. Na primjer, nemojte stvarati potpuno ispisani rječnik marketinških podataka s očekivanjem da ćete kasnije financirati rječnik podataka. Zbog toga je teže doći do tih rasprava o usklađivanju (korak 4) među timovima, i tu se događa prava isplata. Također, uzastopna priroda olakšava gubitak pare. Za postizanje cilja potrebne su istodobne rasprave među timovima s zajedničkim datumom odjave.