R statistics

Ett av mina viktigaste arbetsredskap är statistik. För att bearbeta och analysera data har jag alltid använt SPSS. Anledningen är att det är detta program jag skolades in i som student. SPSS är helt ok, men har sina begränsningar vilket ibland innebär att man måste komplettera med andra program.

För drygt ett år sedan hade jag behov av att göra en propensity score matching. Detta går att göra i SPSS, men man måste skriva väldigt mycket kod och har man många som man vill matcha kan det ta lång tid. En körning tog till exempel tre dagar. Detta problem föranledde att jag började titta på R – ett fritt program. Jag känner till R sedan tidigare, men har aldrig riktigt provat på det tidigare. Orsaken är ganska enkel – har man lärt sig ett program finns det en ganska stor transaktionskostnad att lära sig ett annat. Det finns helt enkelt annat att lägga sin tid på. Dessutom hade jag förstått att R är svårt och har en brant inlärningskurva. Jag tog det som en utmaning. Faktum är att det tog mig ganska lång tid att ens förstå hur programmet läser in data.

Så jag gjorde ett försök och körde R parallellt med SPSS. Efter sommaren fick jag problem med licensen och kunde bara köra R. Det var då det började hända saker, och jag vande mig vid ordningen i språket. Jag fick tillbaka min SPSS-licens, men efter att jag hållit på med R ett lång tag, sittandes ganska långt in på kvällarna och läst manualer och forum, kändes SPSS inte längre lika naturlig. Framförallt är R otroligt mycket mer flexibelt än vad SPSS är och det finns en mängd med packages (tillägg) som kan laddas ner. Visst händer det att jag öpnnar SPSS, men allt mer sällan.

Dessutom är R open source, gratis att ladda ner och där många deltar i utvecklingen av systemet. Förutom att detta ger fördelar, som att utvecklingen går fortare, är det en sympatisk sak. Det finns också en demokratisk aspekt. Att programmet är gratis att ladda ner innebär att  fler får möjlighet att hålla på med statistik och kolla upp saker själva (även om man kan behöva kämpa lite med språket). Numera finns ju också statistik att hämta gratis. Dock finns det en del nackdelar med R också. Språket är inte helt enkelt, och jargongen på forumen inte alltid den bästa eller i början den enklaste att förstå. Dessutom verkar det mest vara medicinare och naturvetare som använder R medan samhällsvetare snarare håller sig till STATA. Därav kan det ibland vara svårt att lösa saker som är relaterat till samhällsvetenskapliga undersökningar samt att det är en fördel att använda ett statistikprogram som många andra inom sitt fält använder.

 


Publicerat

i

av

Etiketter:

Kommentarer

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.