Att sammanfatta data, illustrera, tydliggöra samt få en bild över variablernas fördelning och tyngdpunkt.
Kvantitativa variabler är numeriskt mätbara och har jämna steg. Kvalitativa variabler är kategoriska, har inte nödvändigtvis jämna steg, och man kan inte uttrycka exakta skillnader mellan värdena.
Kvalitativa variabler är alltid diskreta.
Det är möjligt att klassificera, men inte att rangordna. Exempel inkluderar kön eller färg.
Det är möjligt att klassificera och rangordna, men det går inte att säga något om skillnaderna mellan olika värden (stegen är inte kända).
Det är det värde som förekommer flest gånger i en observerad variabel.
Typvärdet och medianen påverkas knappt av extremvärden.
Det talvärde som motsvarar den mittersta observationen och som delar en fördelning i två lika stora delar.
Varians är standardavvikelsen i kvadrat (σ2 eller s 2 ). Variansen är ett mått på spridning, där större varians indikerar större spridning.
Ungefär "den genomsnittliga avvikelsen från medelvärdet". För att undvika att avvikelserna tar ut varandra (summerar till noll), kvadreras avvikelserna.
Vid beräkning av standardavvikelse (s) för ett urval (stickprov) dividerar man summan av de kvadrerade avvikelserna med n−1 för att skatta populationens standardavvikelse.
Att dra slutsatser om hela populationen baserat på analyser av ett mindre slumpmässigt urval.
Vår utgångspunkt. Vi "tror" på nollhypotesen tills motsatsen är bevisad.
Hypotesen som innehåller vårt påstående, det vi vill testa (forskningshypotesen). Vi kräver "bevis" för att tro på den.
Sannolikheten att, om nollhypotesen är sann, få ett minst lika "extremt" värde (nedåt eller uppåt) som det som observerats i urvalet.
Den sannolikhet p-värdet måste understiga för att vi ska förkasta nollhypotesen och välja mothypotesen.
Om p-värdet är lägre än signifikansnivån, förkasta nollhypotesen (och välj mothypotesen). Om p-värdet är högre, behåll nollhypotesen (eller: kan inte förkasta den).
Att förkasta nollhypotesen trots att den är sann. Sannolikheten för detta fel är alltid lika med signifikansnivån (α).
Ett intervall av värden där man med en viss sannolikhet (ofta 95%) tror att det "sanna" värdet i populationen ligger.
Att uppskatta hur stor effekten är i linjära orsakssamband mellan variabler.
^y=a+b∗X, där y^ är det predikterade värdet.
Den kallas även marginaleffekt eller lutningskoefficient. Den anger hur mycket den beroende variabeln (Y) förändras när den förklarande variabeln (X) ökar med en 1 enhet.
Residualen (e) är skillnaden mellan det faktiska värdet (y) och det predikterade värdet (y). Regressionskoefficienterna beräknas för att minimera summan av residualernas kvadrater.
R2 anger hur stor andel av den totala variationen i den beroende variabeln som kan förklaras av de förklarande variablerna.
Justerat R2 justerar för att det "vanliga" R2 alltid ökar när man inför fler förklarande variabler. Det föredras när man jämför alternativa regressionsskattningar med olika många variabler.
Att populationens regressionskoefficient är noll (det finns inget samband mellan den oberoende variabeln och den beroende variabeln).
F-testet testar hela modellens signifikans. Nollhypotesen är att alla regressionskoefficienter i modellen är noll (d.v.s. modellen är meningslös).
Effekten tolkas som om kontrollvariablerna var konstanta ("allt annat lika"), det vill säga efter att vi har räknat bort effekten av andra variabler.
En binär variabel som endast kan anta två värden, oftast kodade som 0 och 1.
En egenskap som kan variera mellan individer, populationer eller urval och som mäts på ett bestämt sätt.
Den är numeriskt mätbar och har jämna steg mellan värdena, vilket gör det möjligt att uttrycka exakta skillnader.
Den är kategorisk eller icke–numerisk och har inte nödvändigtvis jämna steg mellan sina värden.
diskret
En variabel som kan anta ett oändligt antal värden inom ett visst intervall, till exempel temperatur eller nederbörd.
Kvalitativa variabler är alltid diskreta.
Dess värden kan klassificeras men inte rangordnas, exempelvis kön eller favoritfärg.
Dess värden kan klassificeras och rangordnas, men man kan inte säga något om den exakta skillnaden mellan värdena.
Stolpdiagram
Ett stapeldiagram har kategorier på x–axeln och används för kvalitativa variabler, medan ett stolpdiagram har tal.
Kontinuerliga variabler eller diskreta variabler med många värden.
Det värde som förekommer flest gånger i en observerad variabel.
Det talvärde som motsvarar den mittersta observationen när värdena är rangordnade.
Man tar medelvärdet av de två mittersta observationerna.
Medelvärdet.
Andelen av observationerna som har typvärdet.
En hög spridning eller variation i datamaterialet.
Eftersom maximal spridning ger olika modalprocent beroende på antalet kategorier.
Det högsta värdet minus det minsta värdet.
Skillnaden mellan den tredje och den första kvartilen.
50%
Medianen.
Den genomsnittliga avvikelsen från medelvärdet.
För att undvika att de positiva och negativa avvikelserna tar ut varandra och summerar till noll.
För populationen delas summan av de kvadrerade avvikelserna med n, medan för ett urval delas den med n–1.
Standardavvikelsen i kvadrat.
Att dra slutsatser om en hel population med hjälp av ett slumpmässigt urval från den populationen.
0 och 1 (eller 0% och 100%).
Den visar sannolikheterna för alla möjliga utfall (hela utfallsrummet) för en slumpvariabel.
Normalfördelningen.
Ungefär 68,3%.
Vår utgångspunkt som vi tror på tills motsatsen är bevisad, ofta ett påstående om ingen effekt eller ingen skillnad.
Hypotesen som innehåller det påstående vi vill testa, det vi kräver bevis för att tro på.
Sannolikheten att den avvikelse från nollhypotesen som man observerat i urvalet beror på slumpen.
Sannolikheten att, om nollhypotesen är sann, få ett minst lika extremt resultat som det man observerade i sitt urval.
Den sannolikhet som p–värdet måste understiga för att vi ska förkasta nollhypotesen.
Om p–värdet är lägre än signifikansnivån förkastas nollhypotesen; annars behålls den.
Att vi med tillräcklig säkerhet (bestämd av signifikansnivån) har fastställt att en observerad effekt eller skillnad inte beror på slumpen.
Att förkasta en sann nollhypotes.
signifikansnivån
Att behålla (acceptera) en falsk nollhypotes.
Att uppskatta storleken på effekten i linjära orsakssamband mellan variabler.
förklarande (oberoende), beroende.
Det predikterade värdet på den beroende variabeln Y när den förklarande variabeln X är noll.
Hur mycket den beroende variabeln Y i genomsnitt förändras när den förklarande variabeln X ökar med en enhet.
Skillnaden mellan det faktiska värdet (y) och det predikterade värdet (y^).
Hur stor andel av den totala variationen i den beroende variabeln som kan förklaras av de förklarande variablerna.
Eftersom justerat R2 justerar för att vanligt R2 alltid ökar när man lägger till fler förklarande variabler, även om de är irrelevanta.
Att den sanna regressionskoefficienten i populationen är noll (dvs det finns inget samband).
Ett intervall av värden där man med en viss sannolikhet (ofta 95%) tror att det sanna värdet för en populationsparameter ligger.
Enkel regression har en förklarande variabel, medan multipel regression har flera förklarande variabler.
Som förämdringen i den beroende variabeln när den förklarande variabeln ökar med en enhet, och alla andra förklarande variabler hälls konstanta ("allt annat är lika").
En binär variabel som kan anta värder 0 eller 1 för att representera en kategorisk egenskap, till exempel kön.
Det testar hela modellens signifikans, dvs om åtminstone en av de förklarande variablerna har ett samband med den beroende variabeln.
Att alla regressionskoefficienter (förutom konstanten) i modellen är noll.
Marginaleffekt.
Som hur mycket den beroende variabeln ökar/minskar om den oberoende variabeln ökar med en enhet.
Som hur mycket den beroende variabeln ökar/minskar i genomsnitt när egenskapen som representeras av dummyn är närvarande (1) jämfört med när den är frånvarande (0).
Att stegen mellan de olika vrädena på ordinalskalan är lika stora.
