Q&A (Questions & Answers)

 

B&O Bachelorproject 2, januari 2016

 

Last update: 7 januari 2016, 12:00

 

 

In dit document worden de op het BB forum gestelde inhoudelijke vragen zo goed mogelijk beantwoord. Ze staan gerubriceerd naar onderwerp (rechterkolom). In de linkerkolom staan de initialen van de vragensteller. Ik hoop dat dit een heel lang document wordt: blijf vragen stellen (op BB).

 

Harry Ganzeboom

 

LO

Welke opties moet ik aanklikken om de F-toets (One Way ANOVA) uit te kunnen voeren?

 

MEANS Y by X /Statistics=ANOVA.

MEANS Y by X /Statistics=ANOVA LINEARITY.

 

Het eerste statement geeft naast de conditionele gemiddeld ook een ANOVA F-test. De tweede levert ook de F-Test of Linearity.

 

Means

LO

Hoe toets ik de significantie van de afwijkingen van lineariteit?

 

Dit wordt in het college van Vrijdag 8 januari behandeld.

 

Means

LO

Hoe haal ik de system missing er uit?

 

System Missing worden in de data-matrix en in FREQ output met een puntje (.) aangegeven. De cases met system missings kun je nooit gebruiken in analyses (alleen FREQ laat ze zien). Dit is anders bij User Missings die je bij CROSSTABS wel kunt gebruiken.

 

Als je wel met deze cases wil werken, moet je de missings via recode vervangen (substitueren) door een redelijke waarde. Denk aan het geval van niet werkende die de vraag over aantal werkuren niet beantwoord hebben. Dan is redelijk:

 

RECODE Hours (sysmiss=0)(else=copy) INTO Hours1.

 

Sommige procedure (bv. FAcTOR) hebben een optie om de missings door het gemiddelde te vervangen. Ook dan kan soms een redelijke keuze zijn.

 

Missings

LO

Wanneer weer ik met welke waardes ik moet werken. Bij opdracht 2 moest ik leeftijd categoriseren en bij opdracht 3 staan in het antwoordblad de antwoorden adhv van de niet gecategoriseerde leeftijd.

 

Technieken als correlatie, regressie en factoranalyse zijn in beginsel bedoeld voor continue variabelen. Door continue variabelen te categoriseren (bv. de recode van Agr à Agecat uit de opdracht) verlies je in beginsel informatie en verlaag je de betrouwbaarheid van zo’n variabele. Maar dat effect is vaak erg klein, voorals als je 5 of meer categorieën overlaat. Het voordeel van zo’n nieuw categorische variant zoals AgeCat is dat je er gemakkelijker tabellen en grafieken mee kunt maken.

 

Recode

LO

Hoe kan ik her-categoriseren als er in de oorspronkelijke variabele de waarde ook al gecategoriseerd zijn? (zoals bij opleidingsniveau).

 

Op het RECODE scherm kun je verwijzen naar precieze waarden, en ook naar ranges. De volgende twee statements doen hetzelfde:

 

RECODE Educ (1 2 3 4 5=0)(6 7 8 9 10 11=1) in INTO EducHiLo.

RECODE Educ (1 thru 5=0)(6 thru 11=1) INTO EducHiLo.

 

Recode

LO

Kan op het uitwerkblad ook de precieze handelingen komen te staan? Aan alleen een antwoord heb ik niet zo veel.

 

De preciese handelingen staan gedocumenteerd in de syntax die bij elk opdracht (vaak met ** commentaar **) wordt bijgevoegd. Je moet SPSS vanuit deze syntax leren te beheersen.

 

Syntax

LA

Wanneer gebruik je een F-test in plaats van een T-test om groepen met elkaar te vergelijken en waarom? Is er een groot verschil tussen de twee?

 

Een t-test (Student’s t) is eigenlijk een bijzonder geval van een F-test (Fisher’s F). Een t-test heeft altijd betrekking op 1 vrijheidsgraad, dat wil zeggen dat er maar een vergelijking wordt gemaakt. Typisch geval is het vergelijken van de gemiddelden van twee groepen (independent sample t-test). Maar een t-test wordt ook gebruikt om een enkele regressie- of correlatiecoefficient te toetsen op significantie. In die gevallen kun je ook een F-test gebruiken, waarbij de relatie is F=t2. De P-waarde is hetzelfde en dus ook de afloop van de significantie test. Er is geen verschil in uitkomst.

 

F-testen kun je ook gebruiken om meerdere verschillen tegelijk te toetsen. Dat kan met de t-test niet. Gevallen die wij zullen tegenkomen zijn:

·        Test of Linearity in Means /stat=linearity. Deze toetst of de conditionele gemiddeln in een relatie kunnen worden samengevat met een rechte lijn.

·        F-change bij vergelijken van stapsgewijze regressiemodellen. Deze toetst of het toevoegen van (meerdere) coefficienten de verklaarde variantie significant verhoogt.

·        F-total by regressie-analyse. Deze toetst of de verklaarde variantie significant van 0 afwijkt – meestal geen interesssante vraag, maar erg onrustbarend als de F niet significant is.

F-testen zijn ingewikkelder dan t-test omdat ze verwijzen naar een verdeling met twee vrijheidsgraden (DF), namelijk DF1 voor het aantal vergeleken parameters, en DF2 voor de gecorrigeerde N (meestal DF2 = N-DF1-1). F- en t-verdelingen staan in veel statistiekboeken afgedrukt (maar niet in Pallant). Gelukkig hoef je bijna nooit gebruik te maken van deze F- en t-tabellen. SPSS drukt de bijbehorende P-waarde voor je af. Toch is het nuttig om ten minste een getal uit deze tabellen uit je hoofd te weten: 1.96 (ongeveer 2.0), die correspondeert met P<0.05 tweezijdig. De corresponderende F-waarde is 3.84.

 

De meest gebruikelijke T-test (independent sample comparison) is eigenlijk in de praktijk een beetje overbodig: dezelfde uitslag krijg je met een correlatie, regressie of anova. T-test in SPSS is wel erg nuttig voor een paar bijzondere gevallen:

·        Wanneer de groepen erg in variantie verschillen (SPSS T-test geeft dan een aangepaste t-waarde). De gewone t-test veronderstelt gelijke varianties.

·        Waneer de groepen gematched zijn, bv. in een experiment met voormeting (paired sample comparison).

·        Wanneer je een gemiddelde met een theoretische waarde wilt vergelijken (one sample comparison), bv. wilt weten of een item-gemiddelde significant afwijkt van het neutrale punt.

 

F-test

LO

Wanneer je een item ompoolt (dus recode into different variables) moet je dan de oude item verwijderen? Want ie blijft in mijn ‘Variable View’ staan.

 

Recode Into different variables maakt een nieuwe variabele aan en laat de oude ongemoeid. Dat is ook precies de bedoeling. Er wordt niet een variabele vervangen, maar er komt er eentje bij. Op die manier heb je beide bij de  hand en kun je je stappen nagaan. Als je de oude variabele zou herbewerken, is de kans groot dat je de draad kwijtraakt.

 

Het is ene goede gewoonte om de naam van de nieuwe variabelen te laten lijken op de bronvariabele, bv. Pride5 en Pride5r, waarbij de r staat voor reversed. Daarnaast kun je de nieuwe variabele een VAR LABEL en VALUE LABELS meegeven, vooral nuttig als je er tabellenover gaat maken.

 

Ompolen gaat overigens ook heel snel met COMPUTE:

COMPUTE Pride5r = 8-Pride5.

 

Poling

PK

Mocht je niet op het eerste gezicht door hebben of je een item moet ompolen of niet, welke analyses kan je dan gebruiken om daar wel achter te komen?

 

De noodzaak tot ompolen van een statement moet je in eerste instantie ontlenen aan de betekenis van de vraag (is die bv positief of negatief over identificatie met het team?) en de richting van de antwoorden (is “helemaal mee eens” de hoogste of de laatste waarde?).

 

In factoranalyse zie je de noodzaak aan een negatieve lading tussen een positief rijtje, of een positieve lading tussen allemaal negatieve. Als je terugkijken in de correlatiematrix, zie je het aan negatieve correlaties tussen allemaal positieve.

 

Maar als je het ook bij je factoranalyse nog niet gezien hebt, is de meest betrouwbare aanwijzing de “Item-corrected total” kolom bij Reliability. Deze kolom geeft aan hoe een indicator is gecorreleerd met het gemiddelde van de andere indicatoren (de schaal dus). Als dat negatief is is het mis, en zie je ook dat de betrouwbaarheid daardoor wordt aangetast.

 

Poling

EE

Weet iemand waarom je eerst de factoranalyse moet doen en daarna pas de betrouwbaarheidsanalyse?

 

Factoranalyse doe je over de indicatoren van meerdere constructen (bv. drie). Betrouwbaarheidsanalyse hebben betrekking op de indicatoren van één construct. Met factoranalyse zoek je uit welke indicatoren goed (valide) bij welk construct horen, pas daarna weet je welke indicatoren je voor je betrouwbaarheidsanalyse moet nemen.

 

Als je factoranalyse over de indicatoren van slechts een construct zou doen, zou je je een uitkomst krijgen die sterk overeenkomt met die van betrouwbaarheids­analyse. Maar factoranalyse levert je geen betrouwbaarheidscoefficient (Cronbach’s alpha) op.

 

Factor

NN

Waarom levert factoranalyse niet de constructen op en doen we dat achteraf met Compute Index=mean(indicatoren)?

 

Dat is een mooie vraag!! Het antwoord is dat je Factoranalyses ook je index variabelen kunt laten maken, namelijk via het Factor /Scores submenu. Eigenlijk is er ook niet zo veel mis met die mogelijkheid, maar we vermijden het om drie redenen:

·        Factorscores zijn nogal onhandig als je missing values in je data hebt. De constructie via Compute Index=mean(indicatoren) is juist op dat punt erg handig.

·        Cronbach’s alpha (die je naderhand gaat berekenen heeft betrekking op de Compute Index=mean(indicatoren), niet op de constructie via factorscores. Er bestaat overigens wel een betrouwbaarheidscoefficient voor factorscores, die grappig genoeg Omega wordt genoemd. Het verschil tussen Alpha en Omega is overigens meestal zeer klein, dus een belangrijke overweging is het niet.

·        SPSS gaat nogal moeizaam om met de naamgeving van factorscore index variabelen. In een practicum met 25 studenten en 1-2 begeleiders levert dat veel verwarring op.

 

Factor