ekonomskabaza.hr

Što je korelacija?

Što je korelacija?

Cilj je ovog teksta na ekonomskim primjerima objasniti što su korelacija i koeficijent korelacije. Koncept korelacije je relativno jednostavan, ali je unatoč tome razumijevanje toga što korelacija je (i što možda nije) izuzetno bitno kako za ekonomske analize, tako i za znanost općenito. Riječ korelacija započinje prefiksom ko-, odnosno latinski co-, što znači zajedno. Riječ relacija znači veza ili odnos. Dakle, riječ korelacija bismo pomalo nespretno mogli prevesti kao „zajednička veza“. Zajednička veza između čega? Između dvije varijable. Varijabla pak označava neku veličinu čija vrijednost nije fiksna, odnosno neku veličinu čija se vrijednost mijenja. Na primjer, težina svakoga od nas je varijabla jer ona nije uvijek ista. Stanje na tekućem računu je također primjer varijable jer se ono redovito mijenja ako osoba aktivno koristi svoj tekući račun za primanje plaće i obavljanje kupovina. Na engleskom riječ varijabla glasi „variable“, što možemo prevesti i kao „varijabilno“ – nešto što se mijenja.

Pozitivna korelacija

U skladu s time, korelacija je neka vrsta mjere toga koliko je jaka zajednička veza između dvije varijable te je li ta veza pozitivna, negativna ili je nema. Najjednostavniji način da se ocijeni kakva je korelacija između neke dvije varijable je da se te dvije varijable prikažu grafički, dijagramom rasipanja. Na primjer, na dijagram rasipanja možemo staviti dvije varijable, broj izdanih građevinskih dozvola i registracije novih osobnih vozila u Hrvatskoj, a dijagram izgleda ovako:

Što je korelacija - dijagram rasipanja možemo staviti dvije varijable, broj izdanih građevinskih dozvola i registracije novih osobnih vozila u Hrvatskoj

Izvor: DZS (2022.) i Autonet (2022.)

Svaka točka na ovom grafikonu (dijagramu rasipanja) istovremeno mjeri dvije stvari – broj izdanih građevinskih dozvola i broj registracija novih osobnih vozila u određenoj godini, a na grafikonu su prikazani podaci od 2005. do 2020. Grafikon se interpretira tako da se na horizontalnoj osi (ona se zove apscisa, možda je se sjećate i kao „osi X“ sa satova matematike) mjere registracije novih osobnih vozila, dok se na vertikalnoj osi (ona se zove ordinata, os Y) mjeri broj izdanih građevinskih dozvola. Primjerice, točka koja odgovara 2005. godini nam komunicira da je 2005. u Hrvatskoj registrirano malo više od 70 000 novih osobnih vozila, a u istoj godini je izdano malo manje od 14 000 građevinskih dozvola. Na isti način tumačimo i točke za sve ostale godine na dijagramu rasipanja (točke na slici kao da su rasute, zato se i zove dijagram rasipanja). Podaci koji su korišteni za izradu ovog grafikona su dani u sljedećoj tablici:

Registracije novih osobnih vozila Izdane građevinske dozvole
2005. 70541 13818
2006. 78775 13575
2007. 82664 12801
2008. 88265 12281
2009. 44918 11736
2010. 38587 10087
2011. 41561 9601
2012. 31360 8330
2013. 27802 6687
2014. 33962 6589
2015. 35715 6328
2016. 44106 8018
2017. 50769 9418
2018. 60041 9406
2019. 62938 9932
2020. 36084 9403

 

Ako se na prvi pogled ova tablica čini dosadna i suhoparna, to upravo i je razlog zašto se takvi podaci češće prikazuju grafički nego u tabličnom obliku. Iako sadrže iste informacije, jedan pogled na grafikon je dovoljan da se ustvrdi da je veza između broja izdanih građevinskih dozvola i registracija novih osobnih vozila pozitivna. Do identičnog zaključka možemo doći i analizom podataka u tablici, samo bi nam za to trebalo nešto više vremena.

Što znači da je veza između broja izdanih građevinskih dozvola i registracija novih osobnih vozila pozitivna? Kao što možemo vidjeti na grafikonu, kada vrijednost jedne varijable raste, raste i vrijednost druge varijable. Na našem primjeru to znači da je u godinama u kojima je broj izdanih građevinskih dozvola bio visok ujedno i broj novih registracija osobnih vozila bio visok. Riječ „visok“ znači da je vrijednost u nekoj godini visoka u usporedbi s vrijednostima u ostalim godinama. 2008. je registrirano 88 265 novih osobnih vozila, što je najveća vrijednost zabilježena od 2005. do 2020. i zato za nju možemo reći da je visoka, pogotovo kad se uzme u obzir da su u kriznoj 2013. zabilježene samo 27 802 registracije. Isto tako, godine s niskim brojem izdanih građevinskih dozvola ujedno su zabilježile i nizak broj novih registracija. Kada dvije varijable rastu (i padaju) zajedno, za njih kažemo da su pozitivno korelirane – njihova je međusobna (zajednička) veza pozitivna.

Znači li korelacija uvijek kauzalnost?

Ono što je jako bitno napomenuti je da korelacija nužno ne znači kauzalnost. Ima li smisla tvrdnja da u Hrvatskoj veće izdavanje građevinskih dozvola uzrokuje (engleski causes, kauzalnost, uzročnost) više registracija novih osobnih vozila? Ili obrnuto – ako ljudi odluče registrirati više novih vozila, to uzrokuje veće izdavanje građevinskih dozvola? Naravno da ne. Iako je korelacija između te dvije varijable pozitivna, ne možemo govoriti o kauzalnosti. Iako se te dvije varijable kreću zajedno, rast niti jedne od te dvije varijable ne uzrokuje rast one druge.

Kauzalnost bi u ovom slučaju dolazila od neke treće varijable, a lako moguće i više njih. Na primjer, mogli bismo reći da bolja gospodarska situacija istovremeno uzrokuje i veće izdavanje građevinskih dozvola i više registracija osobnih vozila. To je u skladu s podacima na našem grafikonu – pretkrizne godine (od 2005. do 2008., uz napomenu da je recesija započela krajem 2008.) bilježe najveće vrijednosti, dok krizne godine kao što su 2012., 2013., 2014. i 2015. bilježe najmanje vrijednosti.

Negativna korelacija

Pogledajmo jedan primjer negativne korelacije između dvije varijable. U ovom pak slučaju možemo govoriti i o korelaciji i o kauzalnosti između te dvije varijable:

Što je korelacija - primjer negativne korelacije između dvije varijable.

Izvor: DZS (2022.), HZZ (2022.)

Vidimo da je korelacija između stope rasta (realnog) BDP-a u određenoj godini i promjene broja nezaposlenih u toj godini (u odnosu na godinu ranije) negativna. U godinama kao što su 2006. i 2007. (označene narančasto), kada je stopa rasta iznosila oko 5% (što je izuzetno visoka stopa rasta za Hrvatsku), promjena broja nezaposlenih je bila negativna. Tako se 2006. broj nezaposlenih promijenio za -17 123, odnosno smanjio za 17 123 u odnosu na 2005. godinu (točnu brojku je naravno nemoguće precizno očitati s grafikona, ja imam podatke u tablici iz koje sam napravio grafikon). Nakon pada broja nezaposlenih u 2006., u 2007. je hrvatski BDP porastao oko 5% u odnosu na razinu iz 2006., a posljedica toga je bila smanjenje broja nezaposlenih za oko 27 200 ljudi u odnosu na 2006. Drugim riječima, veći gospodarski rast (veća stopa rasta BDP-a) znači manje nezaposlenih. Suprotno tome, manji gospodarski rast (u nekim godinama i negativan rast, odnosno pad BDP-a) znači više nezaposlenih. Tako se 2009. hrvatski BDP smanjio za 7,3% u odnosu na 2008., a posljedično je broj nezaposlenih te godine porastao za oko 26 400 u odnosu na 2008.

Zašto u ovom slučaju možemo govoriti i o korelaciji i o kauzalnosti? Zato što je logično da se u godinama u kojima se proizvodnja povećala nezaposlenost smanjila. U „dobrim godinama“ prodaja poduzeća raste i radi toga poduzeća počinju proizvoditi više (da bismo prodavali više nego do sada moramo proizvesti više nego što smo do sada proizvodili[1]). Naravno, povećanje proizvodnje se može postići i s postojećim brojem radnika, na primjer tako da postojeći radnici rade prekovremeno, ali barem dio poduzeća povećava proizvodnju na način da zaposli nove radnike s kojima onda proizvodi više nego do sada. Dio novozaposlenih radnika[2] čine upravo ljudi koji su prethodno bili nezaposleni. Dakle, veća proizvodnja (veći rast BDP-a) dovodi do veće zaposlenosti (stvara radna mjesta), što smanjuje broj nezaposlenih[3]. Veza između proizvodnje i nezaposlenosti je negativna, a to je upravo ono što je prikazano na grafikonu.

Pravac koji prolazi kroz točke na grafikonu

Na grafikonu možete uočiti i pravac koji prolazi kroz rasute točke, a nagib pravca je negativan (pravac ide prema dolje, nagnut je prema dolje). Na grafikonu s građevinskim dozvolama i registracijama vozila nije prikazan takav pravac, ali da je, on bi imao pozitivan nagib, što odgovara pozitivnoj vezi (korelaciji) između te dvije varijable. Ideja iza tog pravca je da se on nalazi otprilike u sredini svih točaka koje su na grafikonu te on na neki način predstavlja sve te točke. Svatko bi mogao uzeti olovku i sam probati ručno nacrtati takav pravac s ciljem da on što bolje odgovara točkama koje su na grafikonu. Za objasniti točan način kako se taj pravac konstruira, odnosno kako ga računalo konstruira i kako zna gdje točno staviti taj pravac je neizbježno navoditi određene matematičke, odnosno statističke formule i koristiti derivacije. S ciljem držanja teksta jednostavnim nećemo ići u tom smjeru, a dovoljno je zapamtiti da taj pravac predstavlja točke na grafikonu.

Ovdje bi se moglo prigovoriti da taj pravac ne radi izuzetno dobar posao u predstavljanju veze između gospodarskog rasta i promjena nezaposlenosti, odnosno da točke ne leže točno na pravcu nego su razbacane oko njega. To je definitivno istina i to je jedan od razloga zašto je ekonomija društvena znanost – veze između ekonomskih varijabli gotovo nikad nisu potpuno precizne i savršene zato što se jako puno stvari mijenja istovremeno. Na primjer, pogledajmo točke koje su označene crvenom bojom na prethodnom grafikonu – godine od 2015. do 2018. U tim je godinama pad broja nezaposlenih u odnosu na godinu prije iznosio više od 40 000, a stopa rasta je u tim godinama bila oko 3%. S druge strane, u 2006. i 2007. (označene narančasto) stope rasta su bile više (oko 5%), ali se nezaposlenost u te dvije godine smanjila za oko 17 i 27 tisuća, što je znatno manje od smanjenja broja nezaposlenih za preko 40 tisuća koje je zabilježeno u godinama 2015. – 2018. Odakle ova razlika? Na promjenu broja nezaposlenih utječe gospodarski rast, ali i brojni drugi faktori. Hrvatskim je građanima nakon pristupanja Europskoj uniji 2013. olakšan pristup tržištu rada EU. Stoga u razdoblju od 2015. do 2018. za pad nezaposlenosti nije „zaslužan“ samo gospodarski rast i s njim povezano stvaranje novih radnih mjesta, nego i emigracija ljudi koji su prethodno bili registrirani kao nezaposleni pri Hrvatskom zavodu za zapošljavanje. Zato se točke koje odgovaraju tim godinama nalaze ispod pravca, što znači da je pad nezaposlenosti u tim godinama bio neuobičajeno velik naspram onoga što bismo očekivali ako bismo vodili računa samo o gospodarskom rastu u tim godinama.

Koeficijent korelacije

Za kraj ćemo ukratko objasniti što je koeficijent korelacije. Kao i kod konstruiranja pravca na grafikonu, za detaljno i potpuno objašnjenje je potrebno puno više vremena i matematike, što ćemo preskočiti i fokusirat ćemo se samo na to što taj koeficijent znači. Na samom početku teksta smo rekli da je korelacija mjera jačine zajedničke veze između dvije varijable. No, do sada nismo ništa mjerili, samo smo komentirali je li ta veza pozitivna ili negativna. Ako bolje pogledamo i usporedimo prvi i drugi grafikon, može se uočiti da je pozitivna veza između izdanih građevinskih dozvola i registracija novih osobnih vozila ipak malo „jača“ od negativne veze između stope rasta BDP-a i promjene broja nezaposlenih.

Upravo jačinu te veze mjeri koeficijent korelacije. Na primjer, koeficijent korelacije za prvi grafikon iznosi +0,82, odnosno 0,82 (plus nema potrebe pisati jer se podrazumijeva). Plus ispred 0,82 znači da je veza pozitivna, a broj 0,82 nam komunicira koliko je ta veza jaka. Maksimalna jačina pozitivne veze je 1 (+1), što bi odgovaralo slučaju u kojem je veza pozitivna i apsolutno sve točke leže točno na pravcu. Pravac koji prolazi kroz točke nije prikazan na prvom grafikonu, ali možemo ga zamisliti u glavi i jasno je da točke „prate“ taj pravac, ali da ne leže točno na tom pravcu. Zato pozitivna veza u ovom slučaju nije savršena (što bi odgovaralo koeficijentu koji iznosi točno 1), nego za koeficijent korelacije od 0,82 možemo reći da je u pitanju „relativno jaka pozitivna veza“ između izdanih građevinskih dozvola i registracija novih osobnih vozila. Koeficijent korelacije za drugi grafikon je negativan i iznosi -0,73, što potvrđuje da je veza između stope rasta i promjene broja nezaposlenih negativna (predznak minus), ali ipak nije toliko jaka kao na prvom grafikonu (0,73 je manji broj od 0,82, ovdje ignoriramo predznake). Koeficijent korelacije od -1 bi značio savršenu negativnu vezu između dvije varijable (pravac ima negativan nagib i sve točke leže točno na pravcu), dok koeficijent korelacije koji iznosi 0 ili je oko nule znači da između dvije varijable nema (niti pozitivne niti negativne) veze[4].

Kratak kviz za one koji žele testirati svoje razumijevanje teksta

Korelacija je mjera:

Ako koeficijent korelacije iznosi +0,5, znamo da:

Veći BDP dovest će do smanjenja broja nezaposlenih zbog toga što:

[1] Ovo nije potpuno točno. Prodavati više možemo i uz istu razinu proizvodnje ako prodajemo robu koju smo prethodno proizveli, odnosno ako prodajemo (i na taj način smanjujemo) zalihe. Radi jednostavnosti ovdje ignoriramo promjene u zalihama robe. Kod usluga tog problema nema jer se usluge kao što su, na primjer, šišanje, ne mogu skladištiti, odnosno njih ne možemo imati na zalihama.

[2] Ali ne sve. Ako ste čitali naš tekst o tržištu rada, tu smo spominjali i obeshrabrene radnike, koji su dio ekonomski neaktivnog stanovništva. Kako poduzeća proizvode više i zapošljavaju više, ne dobivaju posao samo osobe koje su prethodno bile nezaposlene već i obeshrabreni radnici.

[3] Ovu priču možemo okrenuti i naglavačke. Veće zapošljavanje (što smanjuje nezaposlenost) dovodi do veće proizvodnje. Na primjer, poduzetnik otvori poduzeće, zaposli dvoje ljudi te njih troje proizvode neki proizvod ili uslugu. U tom slučaju rast zaposlenosti prethodi rastu proizvodnje i tek na kraju dolazi do prodaje.

[4] Ovo također nije potpuno točno. Koeficijent korelacije koji iznosi 0 znači da između dvije varijable nema linearne veze (linearna veza je ona veza koja se može prikazati pravcem), ali je itekako moguće da između varijabli postoji jaka veza, samo ju nije moguće opisati pravcem (linija, eng. line) pa koeficijent korelacije, koji mjeri isključivo linearnu povezanost, tu vezu ne detektira. Primjer takve veze je dijagram rasipanja koji izgleda kao parabola (recimo, slovo U).

Možda će vam se svidjet

Komentara (2)

  • […] glavi stanovnika. Iz grafikona je vidljivo da je ta veza pozitivna (više o linearnoj regresiji na linku), odnosno da što je zemlja razvijenija to u prosjeku emitira veću razinu onečišćenja. Jedan od […]

  • […] wage rates, % per year) (ako nekome treba pomoć oko čitanja dijagrama rasipanja, to je detaljnije objašnjeno u ovom tekstu). Svaka točka na grafikonu predstavlja jednu godinu u razdoblju od 1861.-1913. i […]

Odgovori