"Jednako kao i vidoviti Milan, na putu ste postati pravi šaman i to bez
ulaganja u tarot, brazilsku kavu, turski grah ili što se već koristi za
gledanje u budućnost. Ovaj tečaj će vas koštati malo krvi, znoja i suza
ali kao što i sami znate "najskuplje su besplatne stvari" stoga
pripremite flastere, ručnik i maramice i krenite!"
Što se kaže, where were we? Naučili smo da je koeficijent korelacije standardizirani koeficijent koji nam govori o povezanosti udaljenosti pojedinog ispitanika od aritmetičkih sredina dviju varijabli. No, što mi markentingaši znamo reći - to nije sve! Korelaciju možemo vizualizirati kao liniju koju (u ovom konkretnom slučaju) nazivamo pravac regresije. Ali stay tuned...
Što se kaže, where were we? Naučili smo da je koeficijent korelacije standardizirani koeficijent koji nam govori o povezanosti udaljenosti pojedinog ispitanika od aritmetičkih sredina dviju varijabli. No, što mi markentingaši znamo reći - to nije sve! Korelaciju možemo vizualizirati kao liniju koju (u ovom konkretnom slučaju) nazivamo pravac regresije. Ali stay tuned...
Kao što smo naučili u postu o utjecaju i povezanosti, povezanost (ili korelacija) je potreban (ali sam po sebi nedovoljan) uvjet za zaključivanje o utjecaju. To znači da znajući koeficijent korelacije dvije varijable mi zapravo ne znamo koja prethodi kojoj niti koja utječe na koju. Znamo samo da znajući rezultat ispitanika na jednoj varijabli znamo gdje se (otprilike) nalazi na drugoj varijabli. Ono što je danas u planu je vidjeti da znajući koeficijent korelacije i (po mogućnosti) informacije o tome koja varijabla se događa prije u vremenu možemo predvidjeti vrijednost jedne temeljem informacije o drugoj. Kad nam tako nešto može biti korisno? A kad nam takvo nešto ne može biti korisno?? Zamislimo da nas zanima koliko dugo ćemo biti u vezi prije nego se oženimo ili da nas zanima koliko će neki radnik biti uspješan na poslu ili nas zanima koliko ćemo parfema prodati... Zar ne biste htjeli tako nešto znati unaprijed? A jedino što vam za to treba je informacija o jednoj jedinoj varijabli kao npr. - koliko partnerica ste do sad imali, kolika je radnikova inteligencija ili kolika je cijena parfema. Dakle znajući stvari koje već znate (koje ne morate dodatno mjeriti) možete zaključivati o stvarima koje će se dogoditi u budućnosti. Jednako kao i vidoviti Milan, na putu ste postati pravi šaman i to bez ulaganja u tarot, brazilsku kavu, turski grah ili što se već koristi za gledanje u budućnost. Ovaj tečaj će vas koštati malo krvi, znoja i suza ali kao što i sami znate "najskuplje su besplatne stvari" stoga pripremite flastere, ručnik i maramice i krenite!
Generalna formula kojom nešto želimo predvidjeti je uvijek ista (bez obzira na kompleksnost analiza koje koristimo) a glasi:
nešto što želimo predvidjeti = ono na temelju čega želimo predvidjeti + pogreška
(sjetite se da je pogreška uvijek s nama i kad pišemo test u kojem bismo trebali znati odgovor na pitanje a kamo li kad predviđamo u budućnost).
nešto što želimo predvidjeti nazivamo zavisna varijabla (čut ćete i kriterij pogotovo dok govorimo o regresijskoj analizi), a ono na temelju čega želimo predvidjeti zavisnu varijablu nazivamo nezavisnom varijablom (ili prediktorom regresijskim riječnikom). Iako i dalje ne možemo govoriti o kauzalnosti čim spomenemo regresiju, kriterijem ćemo nazivati varijablu od interesa, onu koju želimo predvidjeti. Varijablu pomoću koje želimo predvidjeti kriterij ćemo koristiti kao prediktor. Iako je najčešći slučaj da se zavisna događa kasnije u vremenu od prediktora što zapravo i ima smisla jer malo je uzaludno predviđati nešto što je bilo na temelju nečega što će se dogoditi ali ima i takvih primjera (npr. [čujem se da maltretiram s tim npr. ali što ću, ovo je primijenjen blog pa vrvi primjerima] možda nas zanima koliko jako smo vježbali obzirom na količinu znoja koji smo iznojili).
Za potrebe ovog posta recimo da sam ispitao koliko ljudi vole okus soka kojeg piju! I to kroz 2 pitanja. Nisam se zamarao o kojem soku se radi
već sam prilazio ljudima koji piju sok (koji god). Njihov zbroj odgovora na
ta pitanja je predstavljao količinu sviđanja koju osjećaju prema tom
soku. Skala se protezala od 2-14 (jer smo imali dva pitanja na skali
1-7). Rezultate (koji su izmišljeni ali plauzibilni dovoljno da posluže kao primjer u postu s ograničenim dosegom) prikazujem grafički uz pomoć histograma na sljedeći
način (okrenuo sam ga tako da bude na "y-osi" jer će nam kasnije biti
lakše):
Slika 1. Histogram rezultata na varijabli Sviđanje soka
Već
viđeno, ali svejedno da napišem par (od 1000 koliko ih je na grafu)
riječi o grafu. Svaka točkica je jedan ispitanik a stupci su široki 2,5
stupnja pa onda ispitanici koji su dali procjenu od 11,5-14 (npr.) njih
dvojica određuju da je prvi stupac odozgo visok 2. Prvi ispod njega je
visok (odnosno širok) tri ispitanika jer imamo tri točkice u rasponu
9-11,5 (npr.). Znajući samo rezultat na ovoj varijabli (1 dimenzija ako hoćete) jedino što možemo napraviti da predstavimo (opišemo) cijeli uzorak je izračunati jedan jedini broj i to aritmetičku sredinu (koja btw iznosi ravno osam) kojom smo minimalizirali (kvadratno) odstupanje svakog rezultata od nje. So far, so good. Međutim, vrag nam nije dao mira, znanstvena znatiželja nam nije dala spavati, noćima nismo spavali razmišljajući "pa zašto pobogu svi ljudi ne vole sve sokove isto, zašto neki vole sok 3/14 a neki vole sok 11/14, je li do soka ili je do ljudi, kad ću više zaspat??". Odlučili ste prvo testirati prvu pretpostavku da je do soka. Obzirom da ste čuli za teoriju evolucije, konkretnije za evolucijsku psihologiju, znate da ljudi vole okus
slatkoga (evolucijska ostavština jer slatkoća indicira zrelost voća
a u isto vrijeme indicira da je ta hrana bogata ugljikohidratima
korisnima za organizam, to što smo u novije doba okruženi s ogromnom
količinom šećera te da je ta preferencija za slatkim ne samo da više
nije adaptivna već upravo suprotno je tema za neki drugi post ako ne već
za drugi blog). Vratimo se nazad u vrijeme i usput, osim toga koliko im
se sviđa okus soka, ispitajmo i koliko šećera ima u njemu te zabilježimo
i taj podatak (drugu dimenziju, ako želite). Ako jednu dimenziju prikazujemo točkom, pitanje za tisuću ocjenskih bodova je kako prikazujemo dvije dimenzije odjednom? Pa da, s dvije točke! Da budem precizniji, pravcem koji prolazi kroz te dvije točke ali da, toliko je intuitivno i jednostavno! Pogledajmo na čas kako bismo rezultate prikazali u 2 D prostoru:
Zamislite načas da uključim gravitaciju na y-osi i da sve točke padnu na y-os. Njihov razmještaj bi bio identičan onome na grafu sa Slike 1. Dakle ti rezultati variraju uzduž y-osi ali variraju isto tako i uzduž x-osi (uključim gravitaciju da sve padnu na x-os i vidim da skroz lijevi ispitanik ima najnižu količinu šećera dok skroz desna točkica ima najviše šećera u sebi). Identičnim principom ćemo se voditi kako bismo opisali naš uzorak duž dvije varijable kao i da ih želimo opisati duž jedne varijable: tako da smanjimo pogrešku koju radimo govoreći o bilo kojem ispitaniku. Isto kao što smo (tamo negdje u drugom-trećem postu) tražili koji broj iskoristiti kao aritmetičku sredinu tako da smo bilježili ukupnu količinu pogreške koju radimo sa svakim od brojeva, ovdje možemo napraviti isto. Kako? Pa znajući da moramo nacrtati pravac zaigrajmo se i svak za sebe nacrtajte pravac (pravac u svojoj definiciji implicira da se radi o ravnoj lini pa nema varanja!) koji najbolje opisuje ovaj skup podataka. Ovo su moji pokušaji:
Slika 3. Moji pokušaji opisivanja odnosa dvije varijable
Dakle pokušao sam povući liniju (odokativno, jel) koja najbolje opisuje točkice na grafu pritom se sjećajući svega o čemu sam prethodno pisao: ako bih zbrajao odstupanja svake točkice od pravca (odstupanje mjerim na y-osi u jedinicama zavisne varijable. Na y-osi u ovom slučaju računam jer je intuitivnije za shvatiti iako jednak rezultat bih dobio i da računam po x-osi, bitno je samo na jednoj a ne miješati malo jednu malo drugu; rule of thumb - radite uvijek na Y-osi i nećete pogriješiti) tada bih došao na nulu (a to znamo da je nemoguće jer tko radi taj i griješi) pa sam stoga, prije nego sam ih zbrojio sam ih kvadrirao. Kako taj zamoran posao (povuci crtu - izračunaj odstupanje - kvadriraj ga - zbroji ih) ne bih radio beskonačan broj puta iskoristio sam kompjuter koji je to u čas posla napravio i nacrtao mi liniju (a postoji the linija - jedna jedina koja prolazi kroz taj oblak točkica na način da je suma kvadriranih odstupanja svih točkica od nje najmanja!):
Slika 4. Pokušaj kompjutera da opiše odnos tih dviju varijabli
Neću uopće nagađati (a nažalost ostalo bi na nagađanju) u kojem razredu (čak neću reći ni osnovne ili srednje škole) smo učili formulu pravca:
pri čemu je "b" ishodište pravca a "a" je njegov nagib, "x" je naravno vrijednost na x-osi pomoću koje predviđam rezultat na y-osi. Ishodište (b) označava vrijednost na y-osi (a mi znamo da je to vrijednost u kriteriju) kad je vrijednost na x-osi (a znamo da je to prediktor) jednaka nuli (a kako to znamo pa zato jer ako je a=0 onda formula ide 0x+b odnosno b jer bilo što puta nula je nula). To je prva točka koja definira pravac, druga točka koja ga definira je za koliko se rezultat u y-osi pomakne kad se rezultat na x-osi (prediktoru) pomakne za jedan (stupanj skale na kojoj je već x mjeren). Znajući te dvije točke mi možemo povući pravac kroz njih. Ono što na kraju dobijemo je informacija da za svaki (dodatni) gram šećera u soku, ljudima se taj sok prosječno više sviđa i to za 0,1 (stupnjeva sa skale 2-14). Ako se sad sjetite varijance i kovarijance koje su ovisne o skali mjerenja lako moguće da mi kažete kakve to veze ima, da smo mjerili količinu šećera u kilogramima taj koeficijent bi bio drukčiji. A ja vam onda odgovorim - tako je! Iako bi bio brojčano drukčiji - praktično ne bi. I što smo u prošlim postovim radili kako bi se riješili skale mjerenja? Standardirizirirali smo (ili tako nešto) varijable! Pogledajmo što se mijenja ako standardiziramo obje varijable pa ih prikažemo na 2D prostoru:
y = ax+b
pri čemu je "b" ishodište pravca a "a" je njegov nagib, "x" je naravno vrijednost na x-osi pomoću koje predviđam rezultat na y-osi. Ishodište (b) označava vrijednost na y-osi (a mi znamo da je to vrijednost u kriteriju) kad je vrijednost na x-osi (a znamo da je to prediktor) jednaka nuli (a kako to znamo pa zato jer ako je a=0 onda formula ide 0x+b odnosno b jer bilo što puta nula je nula). To je prva točka koja definira pravac, druga točka koja ga definira je za koliko se rezultat u y-osi pomakne kad se rezultat na x-osi (prediktoru) pomakne za jedan (stupanj skale na kojoj je već x mjeren). Znajući te dvije točke mi možemo povući pravac kroz njih. Ono što na kraju dobijemo je informacija da za svaki (dodatni) gram šećera u soku, ljudima se taj sok prosječno više sviđa i to za 0,1 (stupnjeva sa skale 2-14). Ako se sad sjetite varijance i kovarijance koje su ovisne o skali mjerenja lako moguće da mi kažete kakve to veze ima, da smo mjerili količinu šećera u kilogramima taj koeficijent bi bio drukčiji. A ja vam onda odgovorim - tako je! Iako bi bio brojčano drukčiji - praktično ne bi. I što smo u prošlim postovim radili kako bi se riješili skale mjerenja? Standardirizirirali smo (ili tako nešto) varijable! Pogledajmo što se mijenja ako standardiziramo obje varijable pa ih prikažemo na 2D prostoru:
Slika 5. Odnos onih istih dviju varijabli ali nakon što sam ih standardizirao
Odmah ste uočili da je to zapravo jedan te isti graf izuzev (naravno) skale mjerenja. Ovdje više ne govorimo o miligramima šećera već govorimo o standardnim devijacijama miligrama šećera u soku i standardnim devijacijama sviđanja soka. Druga stvar koja bode oko je žuta zvjezdica koja odjednom više nije dole lijevo nego je skoknula točno na sredinu negdje. Zašto? Znam da znate, nemojte odmah čitati, razmislite, rekao sam što označava ishodište pravca? Napišite formulu ax+b i računajte.
Pustio sam red razmaka da zaigram na vašu savjesnost. Ako svejedno niste htjeli trošiti (ulagati) više vremena od onog što ste planirali, neka vam bude - ishodište je vrijednost na y-osi (kriteriju) onda kad je prediktor nula a obzirom da su varijable standardizirane onda nula više nije besmisleni broj već je to prosječna vrijednost na varijabli. Interpretacija nagiba (načelno) ostaje ista osim što moramo napomenuti da nagib (konkretno) od 0,73 označava za koliko standardnih devijacija (!) se pomakne y (odnosno zavisna varijabla) onda kad se x (odnosno prediktor) pomakne za jednu (standardnu devijaciju!).
***drumroll***
Taj nagib dvije standardizirane varijable je ono što smo u predprethodnom postu nazivali koeficijentom korelacije! Mind-blown!
Ovo je trebala biti moja zadnja pjesma o njoj (korelaciji) no ako je aritmetička sredina femme fatal ne znam ni sam kako bih tek korelaciju nazvao! Možda Esmeralda.
Nekad kasnije kad se vratimo korelaciji pokazat ću treći (i zadnji - bar koliko za sad znam o tome svemu) način računanja korelacije i onoga što ona jest. Ako se barem upola veselite kao i ja - ja zadovoljan! :)
Do sljedećeg puta,
Matia
Nema komentara:
Objavi komentar