Skale mjerenja nisu stvar samo općeg znanja. Obzirom na to na kojoj skali smo nešto mjerili ograničeni smo s alatom kojeg možemo primijeniti. Pod alat podrazumijevam statistički postupak. Ali to već i intuitivno znate. Ako smo prikupili podatke o tome iz kojeg grada nam gosti dolaze pa imamo Rijeku, Osijek i Dubrovnik, možemo li izračunati npr. aritmetičku sredinu te varijable? Vjerovali ili ne, možemo - ali je besmisleno. Ako kodiramo Rijeku s 1, Osijek s 2 i Dubrovnik s 3 (a ako koristimo SPSS npr. tada moramo unijeti sve varijable kao brojeve i tek nakon objasniti programu "ma vidi, ovo zapravo nisu brojevi, to su mi zapravo imena za imena kategorija") dobit ćemo da je aritmetička sredina 2.0; ako smo kodirali drukčije, aritmetička sredina će biti 1.82; i ako smo kodirali još drukčije ar. sredina će biti 2.18....
Primjer dolje:
Nadam se da je besmisao korištenja aritmetičke sredine za opis podataka na nominalnoj skali uspješno objašnjen. Ako nije, onda odgovorite što znači sljedeća rečenica: "Prikupili smo podatke o 11 ispitanika koji dolaze iz Osijeka, Dubrovnika i Rijeke (M = 1,82)?"
Mjera centralne tendencije služi kako bismo kroz jedan broj opisali cijeli uzorak na određenoj varijabli. Postoje razne, no u kontekstu društvenih znanosti, dovoljno nam je znati tri: mod, medijan i aritmetičku sredinu.
O modu ćemo najkraće, to je vrijednost koja se najčešće pojavljuje u setu podataka, pa bi npr. u prethodnoj tablici mod bio Osijek (jer se pojavljuje 5 puta). Ako bismo naš uzorak na varijabli Grad iz kojeg dolaze htjeli opisati jednom vrijednosti tada bismo rekli: Osijek! i bili bismo najmanje u krivu Vidjet ćete i sami da je svrha statistike korištenje metoda pomoću kojih dolazimo do najmanje krivih rezultata.Kad koristimo mod kao mjeru centralne tendencije (u ovom konkretnom primjeru) količina greške koju radimo je 6. Kako?
Rekavši Osijek! točno smo opisali 5 ispitanika a pogrješili smo kod 6 ispitanika (3 iz Dubrovnika i 3 iz Rijeke).
Rekavši Rijeka! ukupna količina pogreške bila bi 8 (5 Osječana i 3 Dubrovčana) jednaka kao i da smo uzorak opisali s Dubrovnik!
Dakle, mjera kojom (uz najmanju pogrešku) opisujemo vrijednosti na nominalnoj skali je mod! Usko je vezana uz nominalnu budući se (više ili manje) samo uz nju koristi.
Na ostalim skalama (ordinalnoj, intervalnoj i omjernoj) ćemo najvjerojatnije koristiti medijan i/ili aritmetičku sredinu. Iako su poredane po svojoj "kvaliteti" od moda, preko medijana do aritmetičke sredine, dopustite da preskočimo medijan za sad i okrenemo se aritmetičkoj sredini.
Kao i mod, aritmetička sredina se koristi kako bismo napravili najmanju pogrešku prilikom opisivanja uzorka na intervalnoj/omjernoj (a i ordinalnoj) skali. Pa, npr: pitali smo 11 ljudi koliko im se sviđa jogurt od 1-5 i dobili smo sljedeće podatke:
1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5
Cilj nam je i dalje opisati uzorak jednim brojem. Recimo da znamo samo za mod.
Mogli bismo reći da ljudi vole jogurt 5 (od 5) jer nam je 5 mod. Pazite sad, više pogreške ne računamo kao 0 i 1 (pogreške ima-nema) nego kad smo već na "intervalnoj" skali tada možemo i kvantificirati količinu pogreške pa tako:
nekoga s rezultatom 1 smo pogrešno predstavili za 4
(broj kojim ga predstavljamo umanjen za njegov rezultat)
(broj kojim ga predstavljamo umanjen za njegov rezultat)
nekoga s rezultatom 4 smo pogrešno predstavili za 1
(broj kojim ga predstavljamo umanjen za njegov rezultat)
(broj kojim ga predstavljamo umanjen za njegov rezultat)
Zamislite na trenutak da ne postoji formula za aritmetičku sredinu (doći ćemo do nje) ali znamo da želimo opisati uzorak jednim brojem tako da napravimo čim manju pogrešku. Kao i uvijek kad neznamo, najbolje je počet lupetat, na kraju krajeva i ćorava koka pogodi zrno! Moja lupetanja (dakle procjene kojim bih brojem mogao najtočnije, s najmanjom pogreškom, opisati zadovoljstvo jogurtom iz prethodnog uzorka) su bila sljedeća:
1, 1.5, 1.75, 2, 2.5, 2.75, 3.0, 3.2, 3.5, 4.0, 4.5 i 5.0
(dakle ovo su moji pokušaji da pronađem jedan broj kojim ću opisati niz rezultata od gore)
(dakle ovo su moji pokušaji da pronađem jedan broj kojim ću opisati niz rezultata od gore)
Ukupno sam dakle napravio 12 analiza (12 puta sam rezultat svakog ispitanika oduzimao od jedne od ovih vrijednosti i onda sam zbrojio količinu pogreške), ovako nešto:
Ovo sam napravio još 11 puta, mijenjajući u srednjem stupcu vrijednost (pa sam nakon što je cijeli stupac bio petica stavio u cijeli stupac 4.5, pa opet oduzimao svaki rezultat od te svoje procjene i zbrojio...) to sam sve onda prikazivao na graf i dobio sam nešto ovako:
Na Y osi očitavam količinu pogreške, a na X osi su brojevi koje sam testirao kao predstavnike uzorka (npr. ovu tablicu gore sam označio plavom crtom tako da dobijete ideju šta se zbiva..)
Počelo je loše... ukupna pogreška preko 20 kad sam pokušao s jedinicom, onda sam probao 1.5 pa je ukupna pogreška pala ispod 20, 1.75 i već sam blizu 10... Kad sam pokušao s 3.18 dobio sam da je ukupna pogreška 0! Čudno, ali nastavio sam hrabro i pogreška je krenula još padati, otišla je u minus. Na prvu sam pomislio da je negativno od pogreške zapravo točno pa sam razmišljao - super, Ali, nije super to samo znači da sam neke precijenio sa svojim pokušajem (pa je otišlo u minus) a neke sam podcijenio (pa sam završio u plusu) - pogreška je pogreška, cilj mi je bio smanjiti je na 0... I uspio sam s vrijednosti 3.18 I dalje nešto smrdi (u postu, mislim), nije moguće da s tim rezultatom nisam ni malo pogrješio, na kraju
krajeva ni jedan ispitanika zapravo nema rezultat od 3.18. A prema grafu ja sam Bog, bezgrešno sam procijenio cijeli uzorak i to metodom pokušaj-pogreška! No, kao što nije sve tako sivo, tako nije ni žuto, vjerojatno su
mi se poništile pogreške od onih koje sam precijenio s tim brojem (pa
su u minusu) i onih koje sam podcijenio (u plusu su) i kad to sve zbrojim dođem na 0...
Kako bih izbjegao taj problem i kako ne bih postao bahat (ako sam bezgrešan) radim sljedeće (opet ću polako kroz natuknice):
kvadriram odstupanje svakog rezultata od predložene vrijednosti kojom opisujem uzorak
(i tako se rješavam minusa u predznaku i strože kažnjavama velika odstupanja (vidi sljedeću tablicu i usporedi veličinu pogreške kod prvog ispitanika (prije i poslije kvadriranja) i kod predzadnjeg ispitanika (isto, prije i poslije kvadriranja)).
Kada sam prvog ispitanika pokušao opisati brojkom 5 napravio sam veliku pogrešku dok sam predzadnjeg ispitanika zamalo krivo opisao, kad kvadriram tu razliku tada sam više kaznio (napravio sam je čim većom!) veliku pogrešku nego malu (sjetite se, cilj je biti što manje u krivu!).
Nadodao sam žuti stupac u svoju Excellicu da bolje vizualiziram:
kvadriram odstupanje svakog rezultata od predložene vrijednosti kojom opisujem uzorak
(i tako se rješavam minusa u predznaku i strože kažnjavama velika odstupanja (vidi sljedeću tablicu i usporedi veličinu pogreške kod prvog ispitanika (prije i poslije kvadriranja) i kod predzadnjeg ispitanika (isto, prije i poslije kvadriranja)).
Kada sam prvog ispitanika pokušao opisati brojkom 5 napravio sam veliku pogrešku dok sam predzadnjeg ispitanika zamalo krivo opisao, kad kvadriram tu razliku tada sam više kaznio (napravio sam je čim većom!) veliku pogrešku nego malu (sjetite se, cilj je biti što manje u krivu!).
Nadodao sam žuti stupac u svoju Excellicu da bolje vizualiziram:
Ukupna pogreška je veća (60 je veće od 20) ali to bismo i očekivali obzirom da su nam sad svi rezultati u istom smjeru (nema minusa) a još su i kvadrirani, tako da all is good with the world. Grafički to sad izgleda ovako:
Opa, malo drukčije graf izgleda, prvo što vidim je da mi pogreška nije ni blizu nule (tužan smajlić) ali i na ovom grafu ista vrijednost procjene broja kojim bih opisao cijeli uzorak ima najmanju pogrešku koju činim (sretan smajlić). Googlajući ljuto satima i danima saznao sam da postoji lakši način, koji usavršiš još u osnovnoj školi, najčešće u proljeće kad kreneš predviđati svoj uspjeh pa zbrojiš sve ocjene (predviđene) iz svih predmeta i onda podijeliš s ukupnim brojem ocjena i dobiješ aritmetičku sredinu ali i mjeru svog uspjeha koji najbolje aproksimira tvoj uspjeh u tom razredu (pod pretpostavkom da si razumno pretpostavio da ćeš matematiku imati 2 a ne 5 :)
Ne postoji besplatan obrok, pa tako ni aritmetička sredina ne dolazi džabe... Iako zanosna i lijepa, lijepih oblina, sve će vam uzet ne pazite li. S njom se možemo družiti samo nekad. Kad su zadovoljeni neki uvjeti poput normalnosti distribucije podataka. Nikad nemojte smetnuti s uma da sve statističke programe boli briga kako izgleda vaša distribucija podataka. Ako ga pitamo i prisilimo izračunat će nam aritmetičku sredinu abecede. Ne samo to, nego će ponosno ispljunuti podatke i reći: vidi stari, u par milisekundi, opa, aritmeticka... Ladno, ne sekiraj oko toga sta je nominalna skala, ja izračun'o... Bravo. No, slika govori tisuću riječi, vidimo što se zbiva s aritmetičkom sredinom kad joj je po volji (gornji graf) i kad joj ni po volji (donji graf):
Aritmetička sredina je označena plavom bojom, a njegovo visočanstvo medijan crvenom. Što primjećujemo? Aritmetička sredina je labilna... Kako vjetar zašuška tako se ona šeta distribucijom. Ako joj je sve po volji (distribucija liči normalnoj, i o tome ćemo u jednom od sljedećih postova) tada je super, dapače, najbolji reprezentant uzorka (iako ni medijan ne zaostaje puno). However, pojavi li se netko bolji, ljepši i pametniji, aritmetička se odmah pomami i pomakne u tom smjeru (donji graf). Medijan se ne da, on je kao Taft, postojan u svim vremenskim uvjetima. Prije nego detaljnije upoznamo medijana, završno o aritmetičkoj sredini: ona je super, na principima njenog određivanja počiva gro metoda koje možemo (a koje društvenjaci inzistiraju da) koristiti (npr. t-testom ispitujemo razlikuju li se aritmetičke sredine dviju grupa, i sad zamislite da imamo 100 identičnih podataka u obje grupe i jednog ispitanika (u jednoj grupi) koji ima puno veći rezultat od ostatka grupe - zaključili bismo da se dvije grupe značajno razlikuju u mjerenoj varijabli... krivo! al o tom-po tom) ali neki preduvjeti moraju biti zadovoljeni (normalnost distribucije, za sad).
Medijan. Iako prema nekom rangu kvalitete, srednji, ja sam ga sačuvao za kraj. Već sam rekao da je to klasični "good guy" kojemu se obraćamo kad nas otkanta fatalna aritmetička. Medijan je broj (kao i mod, to je actual broj koji se stvarno javlja u distribuciji podataka) koji dijeli distribuciju na pola (kad sve rezultate poredamo po veličini, jedino ako ih paran broj onda kao medijan uzmemo aritmetičku sredinu zadnjeg broja u prvoj polovici i prvog broja u drugoj polovici ali ne cjepidlačite). Pa sjetimo se još jednom prošlog primjera o zadovoljstvu jogurtom:
1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 5
Medijan bi u ovom slučaju bio šesti broj po redu (odnosno 3). Iako ćemo s njim raditi veću pogrešku nego s aritmetičkom sredinom pri opisivanju cijelog uzorka... medijan je super mjera u slučaju kada imamo zakrivljenu distribuciju (ako ne liči na zvono nego je većina rezultata na jednom kraju distribucije (npr. broj automobilskih nesreća koje čovjek doživi u život - većina ljudi doživi nijednu ili jednu a neki nesretnici dožive i 5,6,7...)).
Moooožda malo iskrivljeni primjer, ali recimo da je aritmetička sredina ljevičarka (svjetonazorski) jer joj je bitno da ukupna količina nezadovoljstva (pogreške) u populaciji (uzorku) bude što manja i pritom uzima u obzir i manjine, koliko god male one bile. S druge strane, medijan je pravi desničar koji želi da bude što manje nezadovoljstva (pogreške) u "našoj" (većinskoj) populaciji (uzorku). I tu možemo napraviti primjer... lijepo politički obojan: pitali smo stotinjak ljudi u Hrvatskoj da izraze slaganje s tvrdnjom "Koliki dio crkvenih financija bi država trebala financirati od 0 do 100%?". I distribucija podataka izgleda nekako ovako:
Moooožda malo iskrivljeni primjer, ali recimo da je aritmetička sredina ljevičarka (svjetonazorski) jer joj je bitno da ukupna količina nezadovoljstva (pogreške) u populaciji (uzorku) bude što manja i pritom uzima u obzir i manjine, koliko god male one bile. S druge strane, medijan je pravi desničar koji želi da bude što manje nezadovoljstva (pogreške) u "našoj" (većinskoj) populaciji (uzorku). I tu možemo napraviti primjer... lijepo politički obojan: pitali smo stotinjak ljudi u Hrvatskoj da izraze slaganje s tvrdnjom "Koliki dio crkvenih financija bi država trebala financirati od 0 do 100%?". I distribucija podataka izgleda nekako ovako:
Potrudio sam se pa plavom bojom označio medijan (kad je već desno) a crvenom aritmetičku. Odnekud mi podatak da se prema zadnjem popisu stanovništva oko 90% izjasnilo kršćanima pa recimo da bi onda ovako odgovorili, dok bi se manjinci možda izjasnili da bi u manjem postotku crkvu trebalo financirati. Plavi će reć: "Glas naroda je odlučio, crkvu ćemo financirati u postotku od 88,95%". Aritmetička bi rekla: "Ali ne pita se samo kršćane već sve građevine (pun intended) koje plaćaju porez, ako i njih uzmemo u obzir, ne bi smjeli crkvu financirati više od 80,80%". Možda se razlika od 10% ne čini osobito velikom ali obzirom da se radi o milijunskim iznosima (index.hr, 2016) razlika je bitna.
Evo nas na kraju još jednog posta. Planirao sam pisati o korelaciji (obzirom da mi se čini da je to najčešće pitanje i najveći problem svima i svakome) ali nema smisla bez temelja. Nakon ovog posta, jos jedan kratki o mjerama raspršenja pa dolazimo da centra svega - korelacije.
PS nakon što (bolje rečeno, ako ikad) se skupi dovoljno čitača željnih ne samo teoretskog nego i primjenjenog znanja statistike, podignut ću i korištene tablice i kod za reprodukcije ovih lijeph slika (tako da svi mogu uživati crtajući).
Do sljedećeg puta,
Matia







Nema komentara:
Objavi komentar