Visitor Counter

srijeda, 5. kolovoza 2020.

Analiza Krokodila-zubara: Red ili kaos?



Ove ljetne dane u ruke mi je došla igračka s naslovne slike. Za one neupućenije među vama, riječ je o igrački "Krokodil zubar" (moj slobodni prijevod). Krokodil sa slike otvori usta u kojima se nalazi 13 zubiju (slika je ilustracija, niže je prikazan pravi krokodil na kojem je istraživanje provedeno). Pritiskom na zub on se uvlači u usta, te se igra nastavlja ili se usta krokodila naglo zatvore, malo vam prignječe prst i gubite igru. Zabava za dobrih 5 minuta. No, kako bismo produžili zabavu, nudim malo znanstveniji pristup igri.


U današnjem postu pokušat ćemo odgovoriti na pravo istraživačko pitanje koje glasi: "Zatvaraju li se krokodilova usta nasumice,?". Prije nego pokažem način na koji ću ja odgovoriti na istraživačko pitanje, dopustite da prikažem nekoliko alternativnih načina odgovaranja na istraživačko pitanje.

 - kvalitativno istraživanje putem fokus grupe/intervjua
 - korelacijsko istraživanje putem upitnika
 - eksperimentalno istraživanje

Kvalitativno istraživanje

Kad bismo htjeli odgovoriti na ovo pitanje putem kvalitativne metode istraživanja, pozvali bismo ljude koji imaju iskustva s korištenjem ove igračke te bismo ih ispitali što oni misle, koja su njihova iskustva itd. Iako postoje ljudi koji bi pitali bilo koga ta pitanja (dakle i ljude koji nikad nisu čuli za tu igračku), goli minimum kvalitativnog istraživanja u svrhu odgovora na ovo pitanje bio bi ispitati ljude koji su barem jednom koristili navedenu igračku. Postavljali bismo im otvorena pitanja poput: "Opišite nam svoje iskustvo korištenja igračke.", te bismo njihove odgovore bilježili, kodirali i interpretirali.

Vjerojatno bismo pokušali zaključiti o nasumičnosti zatvaranja obzirom na količinu emocije u njihovom prepričavanju pozivajući se na istraživanja psihologije učenja prema kojima je najteže se odviknuti (a samim tim možda i umanjiti emocionalnu reakciju prilikom prepričavanja) od nasumičnog dobitka/gubitka. Jedan (od mnogo) problema s kojim bismo se suočili je nemogućnost usporedbe intenziteta emocije. Svi ispitanici bili bi korisnici te igračke i pretpostavka je da je svaka igračka ista (a ne da neka radi nasumično a neka prema nekom predvidivom pravilu). No, nemamo mogućnost kontrolne skupine jer kad bismo imali kontrolnu skupinu koju bismo ispitivali o korištenju npr. igranja Čovječe ne ljuti se jer u toj igri znamo da je dio nasumičan (bacanje kockice) ali je dio i namjeran a na kraju krajeva, radi se o potpuno drukčijim igrama.

Korelacijsko istraživanje

Slično kao i kvalitativno istraživanje, za koje bismo morali prikupiti manje ispitanika nego za upitničko istraživanje, usmjerili bismo istraživanje na ispitanike koji su se susreli s igračkom u pitanju. Postavili bismo im nekoliko pitanja. Naivniji među nama bi ih pitali "Mislite li da se usta krokodila nasumično zatvaraju?" a manje naivni među nama bi, eventualno, imali 13 skupina ispitanika (jer je 13 zubiju) te bi svaka skupina imala jedno pitanje "Procijenite, u postotku, koliko često se usta zatvaraju pritiskom na zub broj 1 (ili 2, ili 3.. zavisi o skupini). Na taj način bismo dobili subjektivnu procjenu ljudi o tome radi li se zaista o nasumičnom događaju ili ne. Nedostatak ovog pristupa je što, kao uostalom i kod kvalitativnog istraživanja, ne odgovaramo na istraživačko pitanje nego odgovaramo na pitanje "Što ljudi misle, zatvaraju li se usta krokodila nasumice ili ne?". A to je jedno potpuno drugo pitanje. Osim toga, čak i kad bismo opazili da skupina 7 procjenjuje značajno veći broj zatvaranja usta, ne bismo mogli procijeniti radi li se o nekom pravilu ili jednostavno češće sedmi zub zatvara usta.

Eksperimentalno istraživanje

I inače u životu, eksperimentalno istraživanje zahtjeva manji broj ispitanika, no u ovom slučaju to je dodatno naglašeno. Za eksperimentalno odgovoriti na postavljeno pitanje, ne treba nam nitko nego im sami, i naravno, igračka krokodil. Istraživačko pitanje, na način na koji je postavljeno, je jednostavno te očekuje odgovor DA/NE. No, eksperimentalni pristup nam omogućuje nešto što nam ne omogućuje ni jedan prethodno opisani, a to je zaključivanje o uzrocima. Pomoću eksperimentalnog pristupa možemo kao prvo dati odgovor DA/NE, zatvara li svaki zub podjednako često usta, ali možemo odgovoriti i na pitanje radi li se o stvarnoj nasumičnosti ili naizglednoj nasumičnosti. U daljnjem tekstu ćemo proći kroz eksperimentalni pristup:

Istraživanje

Od pribora nam treba Excel (iako ni papir i olovka nisu krivi) i Krokodil igračka i jedno 20-ak minuta vremena. Metodični kakvi jesmo, ne vjerujemo svojoj mogućnosti da zaista nasumično stišćemo zube već odlučujemo da ćemo krenuti s lijeva na desno stiščući po jedan zub dok se usta ne zatvore. No, pomislimo, što ako smjer odkud krećemo ima efekt na broj pritiskanje prije zatvaranja? Kad bismo ispitivali samo smjer s lijeva na desno ne bismo mogli zaključivati o tome da je "isti vrag" i s desna na lijevo stoga se odlučujemo da ćemo određeni broj puta krenuti s lijeva na desno, zabilježiti rezultate i onda ponoviti postupak s desna na lijevo.

[Cijelo vrijeme pisanja posta mučila me jedna stvar, pogotovo nakon što sam vidio prve rezultate. Stoga sam, praktički nakon što sam napisao cijeli post, kako bih onemogućio kritiku na svoju metodu, još prikupio podatke kad bih kretao od srednjeg zuba na lijevo i od srednje zuba na desno.]

Koliko nam je dovoljno ispitivanja? Obzirom da se radi o 13 zubiju, dao sam priliku svakom zubu da otprilike 7 puta zatvori usta te sam se ograničio na 100 ispitivanja s lijeva te 100 s desna i naknadno još 100 od centra lijevo pa još 100 od centra desno. Naravno da je više uvijek bolje ali obzirom da u jednom trenu djeca više nemaju živaca da im se igram s igračkom morao sam balansirati između znastvene znatiželje i mira u kuću. U svakom slučaju, 403 (pobjegla su mi 3 mjerenja više u jednoj grupi slučajno ali obzirom na veličinu uzorka sumnjam da je ikako značajnije utjecalo na rezultate) puta su mi krokodilova usta priklještila ruku (lijevu, da desnom mogu upisivati rezultate) te sam završio sa sljedećom tablicom koju ću malo pojasniti:

Slika 1. Tablica s prikupljenim rezultatima

 
Dakle, imam 3 varijable (jer je toliko stupaca). Prva varijabla je redni broj zuba koji se zatvorio, druga varijabla je ime zuba koje sam mogao kodirati i brojem (pa bi umjesto A pisalo 1, ali tada bi s desne strane onda zub koji je sad kodiran s M bio kodiran s 1 ako krenem s te strane), te na kraju informacija s koje strane sam krenuo. Obratite pozornost da mi je (kad krećem s lijeva na desno, 3. zub kodiran sa slovom C, a kad sam kretao s desna, 3. zub po redu mi je zub K [pred-predzadnji s lijeva]) te kad sam kretao od centra lijevo, 3. zub je kodiran slovom E. Možda će Slika 2 biti jednostavnija za objasniti postupak:

Slika 2. Opis postupka mjerenja



Dakle, zub A je uvijek isti, bez obzira kojim redoslijedom sam ga pritisnuo. Ono što varira je redni broj pritiska.

Već sam rekao, istraživačko pitanje je prilično jednostavno za odgovoriti, kad bi svaki zub imao jednaku vjerojatnost da zatvori usta, očekivali bismo tzv. uniformnu distribuciju (na x osi bi bio zub, a na y osi broj puta [od 403 npr.] koliko je puta zatvorio usta. Pa pogledajmo što rezultati kažu. Dakle samo sam izbrojao koliko puta je zub A, pa B... zatvorio usta i nacrtao graf u koji sam ubacio horizontalnu liniju koja predstavlja očekivani broj puta koji bismo opazili da se usta zaista nasumice zatvaraju. Od 403 pokušaja, očekivali bismo da je svaki zub zatvorio usta 403/13=31 odnosno 31 put:

Slika 3. Usporedba učestalosti kojom zub zatvara usta  

 

Zubi koji najčešće zatvaraju krokodilova usta su zubi B, F i G, a zubi koji najrjeđe zatvaraju usta su A i M. S tim da najčešći zub (mod) je srednji zub G. Isprekidana linija, ponavljam, predstavlja očekivanje kad bi svi zubi zaista nasumično zatvarali usta. Teško je reći na prvu. Siguran sam da bi testovi značajnosti odbacili nul-hipotezu da svi zubi podjednako često zatvaraju usta. Najviše zbog značajno nižeg broja puta zatvaranja zubiju A i M te iznadprosječan broj puta koji su zubi B, F i G zatvorili usta.

Da smo opazili da svaki zub podjednako često zatvara usta, završili bismo istraživanje. No, obzirom da smo opazili da tome nije tako, bilo bi dobro kad bismo, kad smo već tu, saznali ako nije nasumično, slijede li neko pravilo? Za prvu ćemo podijeliti prošli graf na 4 grupe (s lijeva na desno i s desna na lijevo). Opažanje da zub G (npr.) u oba primjera predstavlja najčešći rezultat išao bi u prilog hipotezi da su neki zubi jači od drugih. Provjerimo na Slici 4:

Slika 4. Usporedba učestalosti kojom zub zatvara usta obzirom na smjer kretanja
Uh, sjećate se izreke da slika govori 1000 riječi. Ovdje su zapravo četiri slike tako da jedan cijeli post o njima mogu napraviti. Ali, ukratko:
 - Zubi A i M niti jednom nisu zatvorili usta kad bih išao s desna na lijevo, odnosno s lijeva na desno (desna dva stupca).
 - Niti jedan graf ne nalikuje na uniformnu distribuciju (eventualno Centar-Lijevo, da nije opažen veći broj puta što je zub B a manji broj puta što je zub I zatvorio usta.
 - Na dva grafa (Centar - Desno i Lijevo-Desno) je zub G modalna vrijednost, dok je na preostala dva grafa druga, odnosno treća po učestalosti.

Ovaj graf me ostavio s više upitnika nad glavom nego odgovora. Ono što još (jedino) možemo provjeriti utječe li broj pritisnutih zuba na to kad će se usta zatvoriti. To bi mi imalo puno više smisla nego da su neki zubi jači - čak bi i djeca ubrzo naučila koji su to pa bi ih izbjegavala.

Kako ćemo to provjeriti? Umjesto da ćemo prikazivati zube koji su zatvorili usta, na x-osi ćemo prikazati redni broj pritiska koji je zatvorio usta:
 


Slika 5. Distribucija broja pritisaka prije zatvaranja usta

Ovo mi, od svih dosadašnjih grafova, najviše liči na uniformnu distribuciju i vodi me ka zaključku da nije do zuba (per se) nego da je možda do broja pritisaka prije zatvaranja!
Čisto da budem 1oo% (odnosno 95%) siguran. Provjerit ću je li svejedno iz kojeg smjera krenem.

Slika 6. Distribucija broja pritisaka prije zatvaranja usta obzirom na smjer kretanja
Crna horizontalna linija predstavlja prosječan broj pritisaka prije zatvaranja usta. Na oko mi se čini da bez obzira na smjer, prosjek pritisaka je cca 6-7 prije nego se usta zatvore. Na sljedećoj slici će biti i preglednije izraženo:

Slika 7. Prosječan broj pritisnutih zubi prije zatvaranja usta obzirom na smjer kretanja
Otprilike radi se o podjednakom broju pritisaka prije zatvaranja. Usta su se najbrže zatvarala kad sam kretao s desna na lijevo a najdulje sam se igrao kao bih kretao s lijeva na desno.

Zaključak
Obzirom na prikazane rezultate, rekao bih da mehanizam zaista na random način zatvara usta. Iako mi se iz grafičkih prikaza učinilo da se neki zubi nije toliko bitno o kojem se zubu radi, odnosno da nije do zuba koji zatvara usta već da mehanizam se otvara/zatvara obzirom na ukupan broj zubi koji je stisnut. Zadnjom slikom, rezultat bi trebao biti očit:

Slika 8. Prosječan broj pritisaka pojedinog zuba potreban da se usta zatvore
Zubi A, G i M su najrjeđe zatvarali usta, što je i logično, obzirom da su uvijek bili prvi na udaru a kakva bi to igra bila kad bi brzo završavala?

Do sljedećeg puta,
Matia

četvrtak, 21. svibnja 2020.

Obrada podataka primijenjenog istraživanja II. (zavirimo ispod haube!)

Vidjet ćete i sami da znanstvenici pokušavaju pojednostaviti svijet čim više (recimo na crno i bijelo), ispitanicima je nekako uvijek najdraža jedna od 50 nijansi sive stoga se moramo potruditi da upitnikom zahvatimo svačiju nijansu sive boje!

utorak, 5. svibnja 2020.

Korelacija (dio 2.)


"Jednako kao i vidoviti Milan, na putu ste postati pravi šaman i to bez ulaganja u tarot, brazilsku kavu, turski grah ili što se već koristi za gledanje u budućnost. Ovaj tečaj će vas koštati malo krvi, znoja i suza ali kao što i sami znate "najskuplje su besplatne stvari" stoga pripremite flastere, ručnik i maramice i krenite!"

srijeda, 29. travnja 2020.

Z-(orro) vrijednosti



Danas kratko ali Zlatko. Sigurno vam se dogodilo da vam se javio nigerijski princ i ponudio vam pola svog bogatstva od 100 000 nigerijski naira (nigerijska kuna). Kad smo već upregnuli maštu iskoristimo je još malo pa zamislimo da smo provjerili i da nigerijski princ zaista postoji i da su ga oduševile uvodne slike u jedan blog o statistici. Toliko je bio oduševljen da je naučio hrvatski kako bi mogao čitati blog i upijati znanje kao spužva (koji ste vi srećkovići) da bi pred sam kraj svog života odlučio mladog autora pogurati svojim bogatstvom od 100 000 naira. Što je prvo što će mladi autor napraviti kad sazna da je dobio tolike silne novce?

nedjelja, 12. travnja 2020.

Korelacija (dio 1.)

Prije nego krenemo, svi smo puno puta čuli pojam korelacije, povezanosti. Visina je korelirana s težinom, antivakcinalizam sa sklonošću teorijama zavjere (tako barem index.hr prenosi istraživanja hrvatskih znanstvenika, ali ne navodi kojih u članku), temperatura s nadmorskom visinom itd. U današnje vrijeme korone tako npr. u puno novinskih/internetskih članaka saznajemo što jest (procijepljenost chloroquine-om što je navodno anti-malarijska bolest) i što nije (vanjska temperatura) povezano s brojem oboljelih od korone.

ponedjeljak, 23. ožujka 2020.

Prikaz rezultata provedenog istraživanja (praktičan primjer)


Mislim da je došlo vrijeme da objedinimo znanje koje smo do sad stekli i izložimo se onome što nas čeka u budućnosti. Recimo da smo dobili zadatak na seminaru, ili planiramo preko ljeta raditi kao konobar da bismo uštedili novac da kupimo SPSS umjesto Excela, i zanima nas koliko ćemo napojnice (manče, bakšiša) dobiti obzirom na npr. spol.

ponedjeljak, 24. veljače 2020.

Povezanost korištenja riječi "utjecaj" i svjesnosti razlike između "utjecaja" i "povezanosti

Uvod
Iako je iz naslova sve jasno, dopustite da pobliže objasnim.  Nažalost, u ovom postu neće biti puno slika (tužan smajlić) ali je bitno za sve dalje što slijedi. I pritom sam savršeno svjestan da nisam još pričao o korelaciji (sinonim za povezanost) ali budem.

Jedno od prvih spominjanja ove (učestale) zabune dogodio se u 30-im godinama 20. stoljeća. Direktor je htio povećati učinkovitost svojih radnika (jer naravno, uvijek može bolje) u tvornici tako da im pojača svjetlo, smanji buku, preraspodjeli kutije po skladištu itd... U tu svrhu naručio je istraživače da ispitaju taj problem. Da smo mi ti istraživač, kako bismo pristupili problemu? Ajmo probat sumirati ono što znamo dosad iz ovih blogova.

četvrtak, 13. veljače 2020.

Uzorak i populacija


Danas ćemo malo praktičnije... Što je to uzorak, što je populacija i kakve veze jedno ima s drugim? Recimo da bismo to trebali danas naučiti kroz praktične primjere...

Najjednostavnije rečeno... zanima nas rezultat populacije (a ne uzorka) a jedini način da ga doznamo je iz uzorka! Ponovite ovo 100 puta, 1000 puta ako treba, rezultat uzorka je apsolutno nezanimljiv sam po sebi,  

ne zanima nas ništa o uzorku a sve o populaciji!



Prema nekim knjigama uzorci se dijele na one koji se temelje na vjerojatnosti i "one druge" (kao loše). Čitajte Fielda kao uvod u uvod u uvod u statistiku (Andy Field: Discovering Statistics using SPSS, ili Discovering... using R, ili Adventure in Statistics... sve što ja govorim on kaže još ljepše i bolje, jedino što piše na engleski pa ako vam se ne da čitat engleski onda ste zapeli tu na Fieldu za sirotinju ako se smijem tako nazvati za malo kasnije od uvoda imate Miles i Shevlin: Applying regression and correlation a dalje ćete već i sami naći što je i gdje dobro).

Znate ono kad su izbori ili netko nešto istražuje pa kaže uz granicu pogreške (ili tako nešto kažu televzijski voditelji)?

TV voditelj: "Prema anketi koju smo naručili od neke agencije ovo su njihova predviđanja rezultata izbora, Milanović vodi s 20% glasova, slijedi ga Grabar-Kitarović s 18% i treći kandidat je Škoro s 15% glasova. Istraživanje je provedeno na uzorku od 14000 glasača. Pritom je važno napomenuti da statistička pogreška iznosi +/- 2,5%."

Voditelj iz studija: "Kolega, za gledatelje koji nisu upoznati s ovim pojmovima, što bi značila statistička pogreška od +/- 2,5 %? Znači li to možda da su pogriješili za 2,5% ili da će u 97,5% puta biti u pravu prognozirajući rezultate? Moramo priznati, konfuzija vlada u studiju i režiji..."

TV Voditelj: "..."

Voditelj iz studija: "..."
Promidžbeni program...

E pa da ne biste tumarali svijetom ne znajući što se tu zbiva možda vam ja uspijem prenijeti djelić atmosfere onoga što se zbiva. Putovat ćemo kroz vrijeme (iz potpuno krivih razloga). Vratit ćemo se u prošlost kako bismo ispitali ljude za koga će glasati (inače bismo putovali natrag u vrijeme sa znanjem tko će pobjediti pa bismo se kladili na njega i lijepo zaradili, ali kao što je uobičajeno, u obrazovanju nisu neki novci pa idemo na put, i vraćamo se, praznih džepova).

Zahvaljujući novim tehnologijama, na stranici izbora imate mogućnost pregleda rezultata koje smo dali kojem predsjedničkom kandidatu u prvom krugu. Ja sam te podatke pretvorio u glasove ljudi. Ne zaboravite: ovo je populacija koju nikad ne znamo (ili ne znamo na vrijeme, šta nam sad vrijedi znati tko je prošao u drugi krug.. ništa) ali korisno je za pokazati važnost uzorka i reprezentativnosti uzorka...

Kako ne bismo varali, pravit ćemo se (za sad) da nemamo uvid u to kako će populacija glasovati već ćemo igrati pošteno te obzirom na uzorak pokušati predvidjeti pobjednika prvog kruga izbora. U tu svrhu odabrali smo 100 ljudi (nekako ljudi misle da je 100 mnogo, pa neka bude za prvu.. imajte na umu da je u ovom slučaju to 0.003% populacije, ali OK negdje moramo krenuti..) i dobili smo sljedeće (pazite ovo je pod pretpostavkom da smo imali savršeni slučajni uzorak - svaki pripadnik populacije je imao jednaku vjerojatnost biti izabran u uzorak - nešto što u praksi nikad ili skoro pa nikad [al zapravo stvarno nikad] nećete imati):


Iz rezultata analize odgovora ovog uzorka zaključili bismo da će u idući krug Milanović i Škoro. Recimo da je jedna TV kuća uzela drugu agenciju za istraživanje tržišta koji su na uzorku jednake veličine (N = 100 što bi naš voditelj s početka priče rekao) i pronašli su sljedeće:

Prema njima u drugi krug sigurno ide Miroslav Škoro a na zajedničkom drugom mjestu nalaze se Kolinda Grabar Kitarović i Zoran Milanović. Novinska kuća platila je svoju agenciju, susjedna TV kuća svoju, Amerikanci (koje odjednom počelo zanimati tko će pobijediti na hrvatskim predsjedničkim izborima) svoju itd. I što se dogodi? Kandidati napadaju ankete kako one nisu točne ni istinite jer lažno pozivaju birače na glasanje i kojezna kakve još nebuloze, agencije se kunu u njihovu točnost (do objave službenih rezultata, onda se okreću statističkoj pogrešci itd).

Pazite, ova dva uzorka koja sam ja imao su savršena! Pod savršena mislim sljedeće:
 - oba su savršeni slučajni uzorci u kojima je svaki ispitanik kojega je kocka dopala zaista i odgovorio na postavljeno pitanje za koga će glasati
 - oba su savršeno točna u smislu da svaki ispitanik iz oba uzorka je na kraju zaista i glasao za kandidata za kojega je i rekao da će glasati (nije ga žena nagovorila da podrži njenu kandidatkinju ;)
 - predstavljaju cijelu Hrvatsku ravnomjerno, neki iz uzorka su možda svjetioničari bez mobitela i televizije ali su mi svejedno odgovorili na pitanje za koga će glasati...
 - Ovo sve govorim da naglasim kako će stvarni uzorci biti puno gori nego ovi (koji prognoziraju Škoru u drugom krugu)

Kako to da jedan prognozira jedan ishod a drugi prognozira drugi ishod??? Šlag na tortu je da su oba savršeno točna (onoliko koliko mogu biti točna!).

Dakle, ovo je najjednostavniji slučaj na kojem ćemo pričati o pogrešci mjerenja. Ali, ona će biti s nama u sve dane života našega. Iako pogreška mjerenja uvijek ovisi o veličini uzorka, ovdje ovisi isključivo o veličini uzorka (vidjet ćete kasnije kada imamo intervalne varijable kojima računamo aritmetičku i standardnu da ovisi i o varijabilitetu al o tom-po tom). Ja sam pogrešku mjerenja (obzirom na veličinu uzorka od 100 i veličinu populacije od 3719141) izračunao ovdje. Moramo unesti veličinu populacije, veličinu uzorka i interval pouzdanosti. Ajmo na sekundu preskočiti interval pouzdanosti, objasnit ćemo ga poslije, zasad samo stavite 95 (ako morate nešto staviti već). Pazite, ovu pogrešku računamo samo ako nam je cilj istraživanja brojati nominalne odgovore (dakle, ako nas zanima koliki je udio muškaraca i žena u populaciji, ako nas zanima koje je ime češće Matia ili Vatroslav, ako nas zanima posjećuju li potrošači Konzum ili Plodine itd...; ovaj kalkulator nećemo koristiti ako nas zanima tko je viši muškarci ili žene, nećemo ga koristiti ako nas zanima koji proizvod kupci više preferiraju itd.). Ovo je obična formula s jednom nepoznanicom - ne znamo koliko pogrešku mjerenja radimo u slučaju kada imamo uzorak veličine n i populaciju veličine N. Ali! nitko nam ne brani, dapače, neki nam naređuju (Laakens na svom blogu, čitajte i njega, on to puno ljepše objasni, ali zahtjeva maaalo naprednije znanje osnovnih pojmova) da unaprijed odredimo s koliko granicom greške bismo bili zadovoljni (odnosno kolika bi bila dovoljna da razlikujemo dvije grupe). 

Pa npr. ako nas zanima kupuju li Hrvati više Mercedese ili BMW-e možemo potražiti omjere Mercedes i BMW u našim susjednim zemljama da otprilike znamo koliko su blizu jedni od drugih, pa ako npr. u Sloveniji imamo 34% ljudi koji imaju Mercedes a 10% ljudi koji imaju BMW. Razlika je 24% pa si možemo priuštiti i granicu pogreške od npr. 10% (to bi značilo da Mercedes ima između 24% i 44% a BMW ima između 0% i 20% ljudi) jer bismo uspjeli ustanoviti kojih automobila ima više (dakle ti intervali se ne bi smjeli poklapati - idealno; ili barem ne bi smjeli sadržavati opaženi rezultat druge grupe unutar njih). Ovo je bitno jer veći uzorak = manja granica greške i obrnuto. 

Ako npr. želimo prognozirati ishod predsjedničkih izbora možemo se okrenuti nazad u vrijeme i vidjeti kolike su razlike presuđivale u dosadašnjim izborima (recimo da je najmanja razlika među kandidatima bila 4%, možda je netko imao 48% a pobjednik 52%) i onda odaberemo prihvatljivu razinu pogreške tako da nam se ne dogodi da bude preveliko preklapanje, u ovom slučaju bismo se odlučili na granicu greške od 2% što bi značilo da će za jednog kandidata glasati između 46-50% ljudi a za drugog 50-54% ljudi - dakle bitno nam je da se ta dva intervala ne preklapaju! (u slučaju predsjedničkih izbora u drugom krugu trebalo bi nam 3000 ispitanika kako bismo tu granicu pogreške sveli na razinu 2%).

Sad malo o intervalu pouzdanosti... Ako smo prognozirali da će Milanović ući u 2. krug s rezultatom od 18% uz granicu pogreške od 2% na uzorku od 3000 ljudi to znači sljedeće:
Kad bismo ponovili istraživanje 100 puta na uzorku jednake veličine (to nitko nikad neće napraviti ali zamislimo da je 100 puta proveo istraživanje na različitim uzorcima od 3000 ljudi), u 95 uzoraka će opaženi rezultat (možda u jednom uzorku 17% ljudi kaže da će glasat za Milanovića, u drugom 17,5, u trećem 20%...) se nalaziti između 18+/-2%...

Pogledajmo sljedeću sliku koja prikazuje prave rezultate (prvi, rozi stupac kod svakog kandidata i predviđanja temeljena na rezultatima anketiranja pet uzoraka od 100 ljudi):
Što opažate? Pa i ne baš puno jer je malo nejasan graf.. Na sljedećoj slici sam ubližio foto-finiš (na kraju krajeva samo to je i bitno) tri kandidata s najvećim brojem glasova:


Kao što sam rekao, prvi stupac kod svakog kandidata je stvarni njihov rezultat, tj. ono šti se na kraju dogodilo... Ali, pogledajte rezultate različitih uzoraka... npr. u Uzorku 1 (smeđa boja) Škoro i Grabar Kitarović su imali jednak broj glasova a Milanović je bio 3., u Uzorku 2 npr. Škoro je išao u drugi krug umjesto KGK itd. Sjećate se da sam rekao da su uzorci savršeni i savršeno točni (obzirom na njihovu veličinu), na sljedećoj slici je identičan graf na koji sam dodao interval pouzdanosti odnosno granicu greške (koji za 100 ljudi od ukupno 3,7 milijuna iznosi +/-10%):

Nekoliko je stvari očito (iskusnom oku, a nešto manje mom) na prethodnom grafu:
 - kao prvo, svjesni smo da 100 zapravo i nije nešto prevelik uzorak... Ako pogledate ove granice greške (ogromne su...), svi kandidati u svim uzorcima su u svim intervalima.. Dakle ne možemo reći (na temelju ovog grafa) ne tko će pobijediti već ni tko će ići u drugi krug...
 - Drugo što primjećuje (i manje iskusno oko) je da oko rezultata u populaciji nema granice greške.. Naravno da nema jer je to ono što želimo znati (to je jedna jedina vrijednost) a nikad (u pravom svijetu) ne znamo...
 - Treće što je vidljivo je da kad pogledate svakog kandidata posebno... njegova/njezina zvjezdica se nalazi unutar svakog intervala od svih 5 uzoraka (gledajte sad samo 6 Milanovićevih stupaca, ili samo 6 Škorinih ili samo 6 Kolindinih, svejedno je)... Dakle tih 5 uzoraka su jedni od onih 95 kod kojih će taj "stvarni" rezultat iz populacije biti unutar tih intervala pouzdanosti.. Da sam uzorkovao 20 puta, vrlo vjerojatno bi se dogodio jedan uzorak (5%) u kojem se rezultat u populaciji ne bi nalazio unutar tog intervala pouzdanosti...

Za kraj, ponovimo sve ali sad sam uzorkovao 4500 ljudi u svakom uzorku (prema onoj stranici koju sam linkao gore, 4500 ljudi je dovoljno da granicu pogreške smanjimo na +/-1%):
Opet nekoliko stvari vidimo na ovom grafu što je različito od ovog istog grafa kad smo imali 100 ispitanika po uzorku... Nekako su ravnomjernije procjene u svakom uzorku... Nema baš stupca unutar svakog kandidata da strši (kao u prvom grafu Milanoviću i Kolindi strši baš rezultat u jednom od uzoraka). Opet, malo pobliže ćemo pogledati finaliste:
Kako to lijepo sad izgleda, više manje koji god uzorak gledali, predvidjet ćemo isto:
a) da Milanović i KGK idu u drugi krug (u svakom uzorku je isti rezultat). 
b) unutar svakog kandidata  njegov konačni rezultat spada unutar granice pogreške svakog uzorka. 
c) Iako ne vidim precizno (moj grijeh, dosta mi je malo ovih grafova za neko vrijeme...) ali mi se čini da se procjene broja glasova svakog kandidata unutar istog uzorka ne nalaze unutar granice pogreške ostalih kandidata (ako se sjećate to znači da postoji statistički značajna razlika - dobro zapamtite ovu frazu... i ona će biti s nama u sve dane života našega). 
d) veće je uvijek bolje, pa tako i s uzorcima. Naći ćete različite cut-off vrijednosti i opravdanja (5-10 puta broj varijabli koje imate, više od 100, bla bla) o tome koliko ispitanika je dovoljno. Jedino što je bitno za unaprijed odrediti broj ispitanika je veličina efekta kojeg istražujemo (u slučaju našeg primjera s autima je to procjena razlike između postotka ljudi koji voze Mercedes ili BMW npr.).

Da je samo zadnja rečenica ostala u glavi - ja zadovoljan.

Stvarno ne znam šta je sljedeći put na repertoaru, ali znam da nije korelacija... još uvijek.

***Mali disclaimer, izbori se odlučuju obzirom na relativan broj glasova (dakle na većinu birača koji su izašli na izbore a ne na ukupan broj ljudi koji imaju pravo glasa) ali kad sam već imao priliku vidjeti cijelu cijelcatu populaciju bila mi je šteta to ne i napraviti, dakle ovaj rezultat da je Zoki imao 16-ak% glasova se odnosi na 16% glasova od svih ljudi koji su imali pravo glasa a ne od svih ljudi koji su glasali.. isti vrag bi bio da sam kao populaciju uzeo samo ljude koji su glasali pa nisam ništa mijenjao.. srž ostaje ista al evo, samo da naglasim***

Lp, Matia