Visitor Counter

nedjelja, 12. travnja 2020.

Korelacija (dio 1.)

Prije nego krenemo, svi smo puno puta čuli pojam korelacije, povezanosti. Visina je korelirana s težinom, antivakcinalizam sa sklonošću teorijama zavjere (tako barem index.hr prenosi istraživanja hrvatskih znanstvenika, ali ne navodi kojih u članku), temperatura s nadmorskom visinom itd. U današnje vrijeme korone tako npr. u puno novinskih/internetskih članaka saznajemo što jest (procijepljenost chloroquine-om što je navodno anti-malarijska bolest) i što nije (vanjska temperatura) povezano s brojem oboljelih od korone.

Ono što je plan za danas je pokazati malo pozadine (naravno, bez ikakve matematike) kako bi vidjeli da se uvijek sve svodi na isto, prikazivali jednu, dvije, tri ili više varijabli. Uvijek pokušavamo napraviti što manju pogrešku koju definiramo kao odstupanje svakog rezultata od očekivanog (kad ne bi bilo pogreške).

Mali podsjetnik 
Sjetimo se, nekad davno, kad smo htjeli prikazati jednu varijablu jednim (do dva) brojem, koristili smo se aritmetičkom sredinom koju smo defnirali kao broj kojim je kvadratno odstupanje svakog broja od nje smanjeno - njome radimo najmanju moguću pogrešku opisujući svakog ispitanika kroz taj broj. Pritom smo veličinu prosječne pogreške (kvadriranu) koju činimo kad se koristimo aritmetičkom sredinom nazvali - varijanca a ako se želimo riješiti tog kvadrata (i korjenujemo varijancu) dobijemo standardnu devijaciju.

Zadatak nam je isti kao i inače, osim što sada želimo opisati odnos dvije varijable a ne opisati rezultate u jednoj varijabli. Recimo da sam skupio podatke o cijeni dijamanta i njegovoj težini (izraženoj u karatima). Kao i u prethodnom postu, radi se o bazi podataka dostupnoj u R-u. Ukupno je izmjereno više od 50 000 dijamanata ali za potrebe učenja o korelaciji ja sam (nasumce) uzeo 10 dijamanata (manjih od 1 karata) i podatke o njihovoj cijeni (u dolarima) i težini (u karatima).

Cilj nam je opisati odnos dviju varijabli a ono što se odnosi među njima su udaljenosti pojedinih rezultata od aritmetičkih sredina tih varijabli. Pozitivna korelacija znači da su više vrijednosti (veće od prosjeka u toj varijabli) na jednoj varijabli praćene višim vrijednostima na drugoj varijabli (veće od prosjeka te druge varijable). Naravno da to podrazumijeva i da su niže vrijednosti na jednoj varijabli praćene nižim vrijednostima na drugoj varijabli. To bi značilo da je ispitanik koji je jako udaljen od aritmetičke sredine u jednoj varijabli, jako udaljen od aritmetičke sredine i druge varijable i to u istom smjeru. Kad bi rezultat ispitanika bio jako pozitivno udaljen od aritmetičke sredine a u drugoj varijabli bi bio jako negativno udaljen od aritmetičke sredine radilo bi se o negativnoj korelaciji (no o tome malo niže u tekstu). Možda je praktičnije kroz primjer: Na Slici su prikazani podaci 10 dijamanata - njihova cijena i težina. Skoncetrirajmo se na dijamant A i dijamant E.

Slika 1. Distribucija rezultata oko aritmetičke sredine veličine i cijene

Dijamant A koji teži 0,52 karata je 0,09 karata udaljen od aritmetičke sredine svih dijamanata. Kad smo težinu seta od 10 dijamanta opisali kroz M = 0,61, konkretno dijamant A smo precijenili za 0,09 karata a dijamant E smo podcijenili za ,33. Pogledamo li prosječnu cijenu dijamanata, uviđamo da smo opet dijamant A precijenili i to za 1010$, dok smo dijamant E podcijenili za 2379$. Nastavimo li tako za svaki dijamant promatrati uočit ćemo da što je dijamant udaljeniji od aritmetičke sredine u jednoj varijabli, to je udaljeniji od aritmetičke sredine u drugoj varijabli i to u istom smjeru (naravno da vrijedi i obrnuto, što je bliži u jednoj, to je bliži u drugoj).

Sljedeće, kad smo računali varijancu, morali smo ove udaljenosti kvadrirati (jer kad bismo ih sve zbrojili bez kvadriranja, dobili bismo nulu - što ne znači da smo bezgrešni već da smo naivni!). Sad ih nećemo kvadrirati ali kako se svejedno moramo riješiti tih predznaka mi ćemo ih pomnožiti međusobno (na kraju krajeva, što je kvadriranje nego množenje broja sa samim sobom). Što će se dogoditi ako množimo odstupanje jednog ispitanika koji je u prvoj varijabli imao veći rezultat od prosjeka (pozitivno odstupanje) a u drugoj varijabli manji rezultat od prosjeka (negativno odstupanje)? Ostat će minus kao predznak - koji ukazuje na negativnu povezanost dviju varijabli. Ako je u obje varijable odstupao u istom smjeru od aritmetičke sredine (bilo iznad, bilo ispod) ostat ćemo s pozitivnim predznakom - pozitivna povezanost.

Sljedeće, zbrojit ćemo umnožena odstupanja svih ispitanika te dobiti broj koji nam predstavlja jačinu povezanosti dviju varijabli (ako bi kojim slučajem bio 0 značilo bi da dvije varijable nisu povezane). Ako malo razmislite, čim se radi o sumi - s većim brojem ispitanika ta suma raste. Znači li to da su dvije varijable povezanije ako povezanost mjerimo na većem broju ispitanika? Naravno da ne, no ako podijelimo tu sumu s brojem ispitanika dobit ćemo mjeru koja je neovisna o broju ispitanika (mala napomena, zapravo dijelimo s brojem ispitanika minus 1, ali o tome jednom kaaaasnijom prilikom) te dobiti uvid u prosječnu udaljenost rezultata od aritmetičke sredine ili kovarijancu. U našem slučaju, suma umnožaka odstupanja svakog dijamanta od aritmetičkih sredina obje varijable iznosi 2089,08. Kada to podijelim s 9 (jer je bilo 10 ispitanika odnosno dijamanata) dobijem 232,12 što je veličina kovarijance ovih dviju varijabli. Ponavljam, predznak je u ovom slučaju pozitivan što znači da kako se jedna varijabla odmiče od svoje aritmetičke sredine tako se i druga varijabla odmiče od svoje aritmetičke sredine (u istom smjeru)

Kao i s varijancom, problem nam je što ne možemo uspoređivati kovariraju li bolje cijena i veličina dijamanta ili čistoća dijamanta i cijena zbog toga što kovarijanca nije standardizirana mjera već je ovisna o skali mjerenja. Recimo da smo cijenu mjerili u eurima (a ne u dolarima), kovarijanca bi bila niža! što ne bi značilo da su cijena i karati povezani jače kad govorimo o dolarima nego je kovarijanca određena udaljenošću od aritmetičke sredine (relativna udaljenost je manja za euro jer 100 dolara je oko 91 euro, nadam se da ste pohvatali ovaj dio). Ovaj problem rješavamo tako da standardiziramo rezultate u svakoj varijabli. Iako u prošlim postovima nismo (a možda smo trebali) spominjali ovu mogućnost, ona je prilično korisna. Standardizacijom varijable određujemo joj aritmetičku sredinu da je 0 (i standardna devijacija 1) a mjerna jedinica postaje jedna standardna devijacija (kolika god ona bila). Iako nećemo trenutno o detaljima, dovoljno je da znate da rezultat pojedinca podijelimo sa standardnom devijacijom uzorka te na taj način dobijemo njegov standardiziran rezultat (logika je kao kad nekoga opisujete u centimatrima umjesto u metrima, kako biste prilagodili skalu mjerenja iz metara u centimetra podijelit ćete sa 100 kako biste visinu izrazili u metrima, isto tako ako kune želite izraziti u eurima tada ćete broj kuna podijeliti s tečajem eura). Gornju sliku prikazujem na stadardizirani način:

Slika 2. Distribucija standardiziranih rezultata oko aritmetičke sredine veličine i cijene

Usporedite li gornju i ovu sliku, opazit ćete da su identične osim u jednoj sitnici, a to su vrijednosti na y osi. Umjesto dosadašnjih jedinica u kojima smo mjerili (karati i cijena u $) sada imaju istu skalu mjerenja - svoju standardnu devijaciju (mentalna nota - rezultat izražen na standardiziranoj varijabli naziva se Z-vrijednost). Pa tako možemo uspoređivati udaljenosti pojedinih dijamanata. Recimo, dijamant A odstupa malo manje od pola standardne devijacije od aritmetičke sredine karata a 0,76 od aritmetičke sredine cijene. Obzirom da se radi o istoj skali mjerenja možemo reći da je relativno jeftiniji (u odnosu na ostale dijamante) nego što je manji (manje karata) u odnosu na ostale dijamante. Dijamant C košta koliko i prosječan dijamant u uzorku no malo više od pola standardne devijacije je veći od prosječnog dijamanta u uzorku. Postupak je dalje isti jer kad izračunamo kovarijancu dviju standardiziranih varijabli - dobijemo njihovu korelaciju!

Prednost korelacije, u odnosu na kovarijancu, je činjenica da je standardizirana te da možemo uspoređivati odnos dvije varijable s odnosom druge dvije varijable. Za razliku od kovarijance, ona je ograničena te ne može biti manja od -1 niti veća od 1 (dogodi li vam se da izračunate da je izvan tog raspona negdje ste gadno zeznuli). Koeficijent korelacije 0 označava odsustvo korelacije a čim je apsolutna vrijednost koeficijenta bliža apsolutnoj jedinici - to je korelacija snažnija. Način na koji se korelacija najčešće prikazuje je scatter-dijagramom (ili dijagram rasipanja ja mislim, meni se više sviđa scatter).

Slika 3. Povezanost veličine i cijene dijamanta

Uzlazna putanja ove plave linije ukazuje na činjenicu da korelacija postoji (jer postoji nagib, kad nagiba ne bi bilo nego je plava linija paralelna s x osi - znači da bez obzira na vrijednost u X varijabli, neki pojedinci imaju više, neki manje Y varijable; i obrnuto, drugim riječim da postoji podjednak broj ispitanika s višim vrijednostima u Y-u na oba kraja X-a) i da je pozitivna (npr. dijamant I ima najmanje karata i najmanje košta, dijamant E ima najviše karata i najviše košta - dakle više vrijednosit u jednoj varijabli praćene su višim vrijednostima u drugoj i obrnuto)

Toliko za danas, ovo je prvi opis korelacije. U sljedećim postovima ćemo na nju sagledati iz drugih perspektiva ali recimo da je ovo osnovno. Prije nego se odjavim, u nastavku slijede praktični primjeri za svaku od situacija: pozitivna/negativna/nepostojeća korelacija u nadi da primjeri govore 1000 riječi.

Sažetak:
Još jednom: korelacija se odnosi na povezanost dviju varijabli na način da su relativne udaljenosti pojedinog rezultata od aritmetičke sredine za svaku od (dviju) varijabli podjednako velike.

Pozitivna korelacija znači da su više vrijednosti u jednoj varijabli praćene višim vrijednostima u drugoj (npr. netko tko ima više centimetara, ima i više kilograma). Usporedite naj-ljeviju i naj-desniju točkicu u obje varijable na Slici 4. Prva točkica je visoka 165 cm (gledam na y-osi) i ima 50 kg (očitavam na x-osi), naj-desnija točkica je ispitanik visok cca 185 cm (očitavam na y-osi) i težak 110 kg (očitavam na x-osi).

 Slika 4. Primjer pozitivne korelacije

Negativna korelacija znači da su više vrijednosti u jednoj varijabli praćene nižim vrijednostima u drugoj. Ovo često zna biti teško intuitivno prihvatiti obzirom da se pozitivna predstavlja kroz primjer da "što je viša varijabla X-viša je i varijabla Y" pa studenti automatski na pitanje "što je X niži to je Y niži" odgovaraju da se radi o negativnoj korelaciji (što je, naravno, krivo). Negativna korelacija znači obrnuti smjer. Slijedi iskarikirani (pojačani) primjer negativne korelacije broja zubi koji nam ostaju i godina koje imamo. Dakle, što smo stariji, imamo manje zubiju (svojih, nadmojestit ćemo ih protezama). Sa slike iščitavamo da mladić od 55 godina je kroz život izgubio jedan zub što znači da ima svoj 31 i dalje u ustima. Što smo stariji više ih ispada, pa recimo u našem primjeru 95-godišnjak u ustima nema više ni jednog svog.

Slika 5. Primjer negativne korelacije

Nema korelacije između dvije varijable onda kada su (npr) više vrijednosti u jednoj varijabli praćene i nižim i višim vrijednostima u drugoj varijabli (recimo da smo izmjerili ekstraverziju pojedinaca [ovo su potpuno izmišljeni rezultati, ako ih si dobro grupirate dobit ćete stihove popularne navijačke pjesme] i zabilježili u kojem mjesecu u godini su rođeni, nepostojanje korelacije je očito u činjenici da u prvom mjesecu [siječnju] podjednak broj ispitanih ima visoku i nisku ekstraverziju a isti obrazac očit je u svakom mjesecu godine).

Slika 6. Primjer nulte korelacije


Toliko od mene za danas, do sljedećeg puta,
Matia

Nema komentara:

Objavi komentar