U zadnjem postu smo saznali da nema razloga da opisujemo uzorak kroz nekoliko (puno) brojeva. Zamislite da nas novinar pita:
Novinar: "Čujem da se bavite istraživanjem pažnje, recite nam malo koja je razlika ako ljudima najavimo gdje će se pojaviti novi podražaj i bez da im kažemo gdje će se pojaviti, koja skupina će brže reagirati na podražaj?"
Ja: "Oooo, dobar dan. Pažnju sam mjerio kroz vrijeme potrebno ispitaniku da pritisne tipku kada uoči određeni podražaj. To vam je zaista kratko vrijeme a mjeri se u milisekundama. No, da se vratim na vaše pitanje, koja grupa je brže reagirala, pa evo ovako, grupa kojoj sam najavljivao gdje će se podražaj pojaviti je ovako reagirala:
1 % ispitanika (njih 2) su imala vrijeme reakcije 250 ms
1,5% ispitanika (njih 3) su imala vrijeme reakcije 251 ms
0,5 % ispitanika (1) je imao vrijeme reakcije 260 ms...
... (ovdje pišem postotak ispitanika koji je imao određeno vrijeme reakcije)
... (i ovdje i tako dok ne dođem do 100% ispitanika)
i na kraju 0,5 % ispitanika (jedan ispitanik) je imao vrijeme reakcije 1034 ms. U drugoj grupi pak,
0,33 % ispitanika (jedan ispitanik) je imao vrijeme reakcije 254 ms
1,33% ispitanika.......
....
....
.... i jedan ispitanik je imao vrijeme rekacije od 1532 ms. Eto, nadam se da sam Vam uspješno odgovorio na pitanje."
Novinar: "..."
Ja: "Halo, jeste još tu?"
Nitko: *tu-tu tu tu-tu tu tu-tu*
Ja (u sebi): "Valjda je poklopio, nema veze, kao da je bitno da ljudi u realnom svijetu budu svjesni rezultata mojih istraživanja..."
Nadam se da sam uspio prenijeti uzaludnost ovakvog načina prikazivanja rezultata. I možda sam malo karikirao (jer sam ovako prikazao jednu omjernu skalu na puno stupnjeva) ali zašto bi različito bilo da sam ovako prikazao neku skalu od 10 stupnjeva? Pa i ne bi... A vjerujte, to ljudi rade!
Kad smo pričali o mjerama centralne tendencije rekli smo da ih je tri (koje moramo znati): mod, medijan i aritmetička sredina. E pa uz svaki se veže jedna mjera raspršenja. Zašto nam je ona bitna? Pa zato što nam je (kao i u cijeloj znanosti) cilj parsimonija a ona se odnosi na jednostavnost. Ako imamo dva objašnjenja jednog fenomena - bolje je ono koje je jednostavnije (ako opazimo da je cesta mokra možemo pretpostaviti da je padala kiša ili da je čovjek doputovao iz Amerike, prespavao kod susjeda u blizini, otišao taksijem u grad ali je ostao bez novca pa ga je taksist na tom mjestu izbacio a on kako je imao vodu u koljenu mu se prolila i tako se smočila cesta; koje objašnjenje je parsimoničnije? opet, karikirao sam radi poruke ali isto vrijedi i ako netko voli izlaziti i ima puno prijatelja možemo pretpostaviti da je ekstrovertirana osoba čiji su roditelji vjerojatno ekstrovertirani bili pa su mu prenijeli te gene ili da su Venera i Mars se tako posložili u trenutku njegovog rođenja da je on zapravo ekstrovertiran..; koje je parsimoničnije objašnjenje?). Osim toga odnosi se na samu temelj znanosti: opisivanje većeg broja stvari uz što manje riječi. Ako nešto možeš reći u jednoj rečenici - reci u jednoj rečenici. Prenijeti čim više informacija uz čim manje podataka (nadam se da to ima smisla i da znate razliku između informacije i podatka). Uglavnom, jedan broj nam ne donosi dovoljno informacije o uzorku (npr. aritmetička sredina dvoje ljudi visokih 149 cm i 151 cm iznosi 150 cm, ali i aritmetička sredina čovjeka visokog 100 cm i 200 cm iznosi 150 cm. Jesu li ta dva uzorka iti malo slična? Pa i nisu baš. Kako bi ih mogli dodatno razlikovati, treba nam barem još jedan broj koji nam govori koliko su rezultati raspršeni oko centra (kako god ga mjerili))...
Raspon
Iako nije nužno vezan isključivo uz mod kao mjeru centralne tendencije već se često prijavljuje i uz aritmetičku sredinu (nepotrebno), raspon ću opisivati kao mjeru raspršenja vezanu uz mod kako bi lakše pohvatali, medijan ima svoju (i samo svoju) i aritmetička sredina ima svoju (i samo svoju) mjeru raspršenja Stoga je pošteno i pravedno da i modu damo njegovu. Ne znam stvarno što bih više o rasponu rekao nego da se odnosi na najnižu i najvišu vrijednost u uzorku. Možda je eventualno bitno napomenuti da se odnosi na vrijednost koja se pojavljuje u uzorku a ne na vrijednost koja se može pojaviti u uzorku. Nazad na dobre stare primjere. Pitali smo ljude koliko im se sviđa ovaj blog na skali 1-7 (samo Likert bajo moj) i dobili smo sljedeće rezultate:
3, 4, 5, 4, 5, 6, 5, 4, 6
Raspon u ovom slučaju navodimo kao 3-6. Iako su ispitanici bili slobodni zaokružiti broj od 1-7, ni jedan to nije napravio stoga smo naveli najnižu vrijednost koju smo opazili u uzorku (3) i najvišu vrijednost koju smo opazili u uzorku (6). Recimo da smo u excellici vidjeli da uz ispitanika imamo i broj 9 npr. Bismo li onda raspon naveli kao 3-9? Ne! Zato što skala ide od 1-7, a ako je negdje ostao zabilježen broj 9 onda smo ili mi ili kompjuter pogriješili prilikom unosa. Uvijek bih se kladio na čovjeka :) Ovo je točka u filmu gdje uvod završava a zaplet započinje:
Interkvartilno raspršenje
Molim? Nije li blog trebao biti na hrvatskom? E pa, ovo je kao hrvatska riječ. Zapravo je definicija napisana u imenu. Sjećamo se tko je g. Medijan? To je onaj kojeg briga za ekstremne rezultate. On poreda sve rezultate po veličini i vidi malo tko je u sredini i kaže da će cijeli uzorak predstavljati taj u sredini. Sa svake strane medijana je točno 50% ostalih ispitanika (kod ar. sredine nije tako jer ona ovisi i o vrijednosti rezultata koji je udaljen). Ono što radimo kad računamo interkvartilno raspršenje jest da izračunamo još dva medijana (medijan rezultata od najnižeg do "pravog" Medijana i medijan rezultata od Medijana do najvišeg rezultata). Možda sam prebrzo krenuo. Ajmo kroz primjer. Izašao sam van i pitao 21 čovjeka kolika je vjerojatnost da bi kupili išta od mene na skali od 1-15 (eto, tako mi došlo). U svoju obranu, nisam izgledao najreprezentativnije taj dan! Uglavnom, ovo su rezultati, već poredani po veličini da se ne mučite:
3, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 8, 8, 8, 8, 8, 9, 9, 9, 10, 15
Obratite pozornost da sam crvenim označio medijan. Što iz ovog možemo zaključiti? Koristit ćemo samo znanje koje imamo do sad (s ovog bloga). Možemo zračunati mod (8), medijan (7) i aritmetičku sredinu (6,81). Obzirom da aritmetička i medijan nisu prerazličite nam govori da u rezultatima nemamo neko preveliko odstupanje (iako ova 15ica malo smrdi). Osim toga, naučili smo i raspon koji iznosi 3-15. Ovo mi je već korisna informacija, dakle skoro cijela skala je iskorištena. Očito sam kontroverzan danas bio i podijelio ljude uzduž cijele skale. Neki su izjavili da bi 3 (od 15) kupili nešto od mene a netko (moja žena) je rekao da bi 15/15 od mene kupio (nekad u kasnijim postovima ćemo razglabati o pristranosti i socijalnoj poželjnosti odgovora, zasad ću se praviti da je to bio iskren odgovor). Uglavno, što bi bio "bolji" rezultat? Da me podjednak broj ljudi ocijenio s 1 i 15, ili da su me svi procijenili ocjenom 7? (Nema točnog i netočnog odgovora, ovisi o vašim osobnim preferencijama, ja bih ipak volio pola 1 a pola 15 da barem neki varijabilitet imam u podacima pa da ih mogu dalje koristiti :)
Odlutao sam, vidimo da je raspon bolje nego ništa (pod ništa mislim na raspon varijable koju mjerimo, znamo da dob ide od 1 do 100tinjak ali ne dalje, pa tako da nemamo raspon dobi naših ispitanika i dalje bismo znali da se nalazi negdje između 1 i 100, ako znamo najnižu i najvišu dob u našem uzorku smanjili smo nesigurnost oko toga koliko je star naš uzorak pa sad znamo da su svi ispitanici negdje između 20 i 80 godina (nije puno ali se trudi)). Sljedeći korak je još malo smanjit nesigurnost a to radimo pomoću interkvartilnog raspona. Kao što mu samo ime govori: izračunamo vrijednost medijana desno od Medijana (takozvani treći kvartil jer se nalazi na točno 75% distribucije rezultata), onda izračunamo vrijednost medijana lijevo od Medijana (tzv. prvi kvartil jer se nalazi na točno 25% distribucije rezultata) i oduzmemo manji od većeg. U primjeru gore, medijan uzorka desno od Medijana (i Medijana) je 8 a medijan uzorka lijevo od Medijana (i Medijana) je 5 . 8 - 5 = 3. Cjelokupna rečenica bi glasila: Medijan vjerojatnosti kupnje iznosi C = 7 (Q = 3). Dakle, medijan označavamo velikim slovom C a interkvartilni raspon velikim Q. Što to točno znači? Da se unutar raspona od 3 stupnja (negdje oko medijana) nalazi 50% srednjih rezultata.
Uobičajeni način prikazivanja ovakve distribucije je takozvani Boxplot (fora je, vidjet ćete, i ne znam hrvatsku riječ za njega...):
Prije nego krenemo, sve što je u boji i sve što piše direktno po grafu sam u Paint-u nadodao, toga inače nema na boxplotu...
Dakle, Y os je varijabla Vjerojatnost kupnje (ičega od mene). Ovaj bijeli pravokutnik je ono po čemu je boxplot dobio ime, unutar te kutije (box-a) nalazi se 50% srednjih rezultata. Horizontalna crta što ga presijeca označava Medijan (povukao sam crtu do Y-osi da vidite da je zaista ista kao što smo i sami izračunali), Q1 i Q3 su također jednaki kao što smo sami izračunali. Boxplot se nekad naziva i Box and whiskers plot (a whiskers su naravno brkovi, ne znam vide li se ali to su ove dvije okomite tanke crne linije što izlaze iz box-a). U brkovima se inače nalazi 25% naj-rezultata (najviših u gornjem brku i najnižih u donjem brku). Međutim, neki put vam se u uzroku pojavi i vlastita žena koja će socijalno poželjno reći da bi od vas kupila što god nudite, za razliku od ostatka svijeta koji vam baš ne vjeruje i rezervirno navodi da možda bi - možda ne bi nešto kupio od vas. Njen rezultat je puuno viši od ostalih, i sad zamislite da su brkovi dugi kao i najekstremniji rezultat... Zamislite mačku kojoj se brkovi vuku po podu... ccc... uglavnom, kao što je duljina mačkinih (ili mačjih?) brkova određena njenom širinom (navodno, nisam našao neki znanstveni članak u prilog toj tvrdnji, više folk-wisdom članaka) tako je i duljina naših whiskera određena interkvartilnim rasponom, točnije oni su 1,5 puta veći od interkvartilnog raspona (ovo s 1.5*IQR je za one koji žele znati više... oni koji žele znati dovoljno je da boxplot služi da provjerimo distribuciju podataka oko medijana s naglaskom na "normalne" rezultate, odnosno one koji se nalaze između vrhova brkova, u jednom od kasnijih postova bit će govora o outlierima, za sad ćete ih vjerojatno isključiti iz daljnjih analiza...).
Iz boxplota možemo provjeriti (odokativno) jesu li nam uzorci slični):
Dakle svaka točkica je rezultat ispitanika na skali Vjerojatnosti kupnje. Ne dajte da vas zbune točkice poredane horizontalno (to je tako da ih se bolje vidi, i inače ih nema u i oko boxa i whiskera, jedine točkice kojih ima na boxplotu su one koje su izvan brkova, vidjet ćete na sljedećem grafu). Imamo tri žene s rezultatom 3, dvije žene s rezultatom 4, tri njih su zaokružile 5, dvije 6 i jedna (moja) 15. Jedan muškarac je zaokružio 7, petorica 8, trojica 9 i jedan 10 (moram naglasiti da su mi to jako dobri prijatelji stoga je rezultat malo viši, iako mogu biti i razočaran...). Iz ovoga već naslućujem da mi muškarci (točnije moji prijatelji) više vjeruju nego žene (ponavljam, baš nisam reprezentativno izgledao na dan mjerenja!).
Zadnji primjer, nije da vam treba ali sam ga unaprijed nacrtao pa bi mi bilo žao da se nemam pohvaliti kome sa slikom. Osim toga, vidjet ćete da se boxplot može i na zabavniji način prikazati: kao violinu! Sad provjeravam razlikuju li se po vjerojatnosti da će nešto od mene kupiti ljudi iz različitih gradova:
Ha? Šta nisu lijepi? Možda je potrebno istaknuti, ali širina ovih trbuha violine je određena brojem ljudi koji imaju taj odgovor relativno na druge odgovore (vidimo uzorak iz Splita, relativno najveći broj ispitanika je odgovorio procjenom 8 pa je tamo najšira). Iako medijani sve tri grupe su različiti, veličina boxova i njihova pozicija im je više-manje slična. Ovdje bih bio skloniji reći da mi podjednako (malo) vjeruju kad im nešto nudim.
Ukratko, IQR je bolji od raspona jer nam ukazuje na raspon srednjih 50% rezultata. I to je nešto!
Standardna devijacija
Šlag na kraju, uz femme fatal, aritmetičku sredinu dolazi još jedna femme fatale (njih dvije hodaju zasad): standardna devijacija. Odkud krenuti? Možda opet od onoga što smo naučili već (na ovom blogu). Sjećamo li se prošlog posta i računanja aritmetičke sredine na način da ne postoji formula za aritmetičku nego smo računali količinu pogreške za svakog ispitanika? Ne? Onda da Vas podsjetim:
Kratki podsjetnik, prvi stupac su rezultati ispitanika na skali zadovoljstva nekim proizvodom, drugi stupac je aritmetička sredina (u prošlom postu sam tu stavljao razno razne brojeve i računao kolika je pogreška povezana s određenim brojem), treći stupac razlika između rezultata ispitanika i broja koji predstavlja cijeli uzorak (u ovom slučaju aritmetička sredina) i zadnji stupac ta ista pogreška ali kvadrirana (da izgubimo predznak i da kaznimo velika odstupanja). OK, šta ću vam kad niste prije pazili, sad čitajte opet...
Ali, pa mi smo već više od pola puta prema standardnoj napravili. Ako izračunate prosječno kvadratno odstupanje (prosjek rezultata u četvrtom stupcu) dobit ćete varijancu (kako idemo dalje, tako će biti sve više informacija za one koji žele znati više ali ću ih pisati malim slovima jer ne želim vas opterećivati, uglavnom ne izračunate baš običnu aritmetiču u smislu da ne dijelite s ukupnim brojem rezultata nego s brojem rezultata minus 1; dakle ako želite izračunati varijancu deset rezultata tada ćete prvo zbrojiti tih deset kvadratnih odstupanja i podijeliti ih s devet. Na taj način ćete je malo malo povećati, osigurat ćete se da slučajno ne kažete da je u vašem uzorku varijanca manja nego u populaciji. Toliko za sad o tome). Opa, zvuči poznato? Obratite pozornost da je i ona podložna fluktuacijama kao i aritmetička (dapače, i više jer kod aritmetičke ništa ne kvadriramo nego zbrojimo i podijelimo, a pri računanju varijance tek dolaze kvadrati!) tako da: nađe krpa zakrpu. Što je varijanca manja to su rezultati uže grupirani oko aritmetičke sredine (mali raspon) a što je ona veća to je i raspršenje oko aritmetičke veće. Iako je ona dobra mjera disperzije ima jednu (malu) manu... Varijanca nam govori o prosječnom kvadratnom odstupanju rezultata od aritmetičke sredine (ako smo mjerili temperaturu i saznali da je u Hrvatskoj aritmetička sredina temperature 20 C (stupnjeva Celzijevih) a varijanca 2 to znači da je prosječna pogreška koju radimo kad opisujemo temperaturu u Hrvatskoj kroz cijelu godinu jednaka 2 C2, sjetimo se peripetija s Celzijevima, Kelvinima a sad imamo Celzij na kvadrat???) što je čudna mjera za shvatiti pa zato nakon što smo izračunali prosječno kvadratno odstupanje - korjenujemo kako bismo dobili razumljivu skalu mjerenja. Dobro ste pročitali, iako rijetko naiđem u člancima, standardna devijacija se izražava u skali mjerenja kao i aritmetičku sredinu. Npr. (izmišljena tvrdnja, iako mislim da nisam falio "ceo fudbal") prosječno su Hrvati visoki 175 centimetara uz standardnu devijaciju od 5 centimetara. Needles to say, što je varijanca (std. devijacija) manja to su rezultati bliže grupirani oko aritmetičke sredine i obrnuto (što je veća to su rezultati dalje od aritmetičke sredine). Isto tako budući je izražena u skali mjerenja, veća je vjerojatnost da će standardna devijacija biti veća kada mjerimo godine nego kada mjerimo koliko jogurta dnevno popijete...
Sad dolazimo do pravo ozbiljnog dijela: što nam znači ta standardna u praksi. Pa evo, imamo dva uzorka, oba smo pitali koliko puta dnevno misle na torticu. Prikupili smo njihove rezultate, izračunali aritmetičku sredinu - identična! Da nije bilo ovog posta išli bismo svijetom uvjereni da svi ljudi na svijetu 15 puta dnevno misle na torticu. U zadnji čas smo saznali za ovaj post, naučili dvije-tri o raspršenju i saznali da je u jednom uzorku prosječno odstupanje rezultata od aritmetičke = 4.96 a u drugom uzorku je prosječno odstupanje od aritmetičke = 1.46. Slika govori 1000 riječi:
Nakon ovoga mislim da ne možemo reći da su ova dva uzorka ista... Jer nisu...
Umjesto zaključka, ono što smo naučili je sljedeće: i dalje želimo (samo) opisati odgovore ispitanika na jednu varijablu. Umjesto da kažemo da je uzorak takav da je mod 1000, medijan 1100 a aritmetička sredina 1500 što nam je (samo) djelomično informativno, možemo dodavanjem samo još jednog broja više-manje savršeno opisati uzorak. Dakle dodavanjem vrijednosti standardne devijacije od 100 npr., znamo da je 1500 (aritmetička sredina) dosta dobar reprezentant tog uzorka na toj varijabli (svaki rezultat smo u prosjeku "falili" za 100 - što nije prestrašno obzirom na skalu). Nemojte se vodit time dogmatski, ali standardna devijacija koja je veća od aritmetičke sredine (npr. recimo da je aritmetička sredina = 5 a standardna devijacija 15) ukazuje na probleme u našoj varijabli: vidi sliku:
Oba slučaja su ružna (distribucije su ružne ali slike su lijepe :) ). U gornjem slučaju je standardna veća od aritmetičke (koja je recimo prilično nisko, ovakav slučaj će vam najčešće biti kada imate problem s tim da aritmetička i nije neki super reprezentant uzorka, ne mogu dovoljno puta ponoviti, kad nam je distribucija ovako zakrivljena). Sjetimo se prošle lekcije o tome kako kažnjavamo velika odstupanja i kako smo rekli da većina "pravih" analiza se temelji na računici na kojoj računamo i aritmetičku - negdje sam pročitao (mislim na Twitteru ali ne mogu nikako naći opet) da "Bog mrzi veliku varijancu". Kad je aritmetička sredina visoko (na kojoj god skali to bilo) mala je vjerojatnost da će standardna biti veća a ako i bude vjerojatno imate posla s bimodalnom distribucijom (kad bih se morao kladiti rekao bih da imamo dva poduzorka u našem uzorku, jedan čiji se rezultati grupiraju oko vrijednosti od 45 a drugi dio uzorka se grupira oko 0) vidi donji graf na zadnjoj slici.
Mislim da ćemo zaključiti za ovaj post. U nastavku ćete saznati koja sve vrata otvaramo sad kad znamo sve (sic) o aritmetičkoj i standardnoj... Njih ne moram znati samo da opišem uzorak nego svašta saznam kad znam standardnu, npr. mogu (mooožda) počet naslućivati gdje se nalazi aritmetička sredina populacija (molim? pa mi još nismo pričali o uzorku i populaciji? ne zamjerite, ovo mi je prvi blog u životu namijenjen nečemu pametnom, ne sekirajte, sve je to strukturirano :) ), moći ćemo pričati o tome razlikuju li se aritmetičke sredine dviju i više grupa (u populaciji, naravno), moći ćemo usporediti svoj rezultat s rezultatima svih drugih ljudi na svijetu! (i jedino što moramo znati je standardna devijacija!)... Nadam se da ste upola uzbuđeni kao i ja, bit će dovoljno i potrudit ću se za sljedeći put da još više slika ima da malo i guštate :)
Do sljedećeg puta!
odličnooo!!
OdgovoriIzbriši