Harry BG Ganzeboom

Het coderen van Nederlandstalige beroepen

HET CODEREN VAN NEDERLANDSTALIGE BEROEPEN

Een belangrijk hulpmiddel en tijdsbesparing bij het coderen van beroepen is ze eerst te matchen met een bestaande database van gecodeerde beroepen. Het bestand Source_2015 bevat bijna 50000 beroepstitels uit eerder in Nederland gehouden surveys met daaraan toegevoegd codes voor:

· CBS Standaard Beroepen Classificatie 1971/84 van het CBS, afgeleid van en te herleiden tot ISCO-68

· ISKO International Standard Classification of Occupations 1988, ISCO-88

· ISQO International Standard Classification of Occupations 2008, ISCO-08.

De codes zijn overgenomen uit eerdere surveys. Er is geen garantie dat ze 100% kloppen. De omschrijvingen van de beroepstitels zijn ook ontleend aan deze surveys, inclusief spelvarianten en spelfouten.

Om beroepen te coderen is het noodzakelijk de informatie eerst te verzamelen in een codeerfile. Deze bevat alle te coderen beroepstitels in een lang formaat, dat wil zeggen dat beroepen van verschillende personen (vaders, moeders, respondent) of verschillende beroepen van de respondent onder elkaar zijn gezet. Daaraan wordt de volgende informatie toegevoegd:

· Het respondentnummer

· De naam van de bronvariabele

· Het beroep kan beschreven zijn met meerdere strings (bv.: titel, taken, noodzakelijke opleiding). Voor de automatische codering is alleen de titelstring van belang, maar voor de tweede fase van handmatig coderen is alles van belang.

· Verdere informatie over het beroep, met name zelfstandigheid en leidinggevendheid.

· NIET: geslacht, opleiding, inkomen of andere zaken die niet het beroep zelf betreffen.

Alle string-informatie in lower-case.

Er zijn twee manieren om met Source_2015.sav te matchen:

· Exacte match van de titelstring. In het gunstigste geval levert dit 50%-70% matches op. Een exacte match betekent overigens niet dat de toegekende code correct is.

· Match met de meest gelijkende string op basis van alfabetische volgorde. Dit levert 100% matches op, maar vele ervan zullen fout zijn.

Voor exacte matches is het belangrijk dat de te coderen beroepstitels zo eenvoudig mogelijk zijn gespeld – gebruik bij voorkeur geen afkortingen, geen leestekens en slechts een woord. Hierop kun je je voorbereiden bij het invoeren van de titels en ook enige nabewerking daarvan in Word of Excel wil nog wel eens helpen. Voor matchen met de meeste gelijkende string is dit minder belangrijk, maar is het wel erg belangrijk dat het eerste woord informatief is.

In beide gevallen ontkom je er niet aan om een handmatige codeerfase uit te voeren, waarbij je alle toegekende coderingen, ook die van de perfecte matches, controleert. Het is daarbij handig als je gebruik maakt van de value labels van de toegekende beroepencodes en te werken met afwisselende numerieke en alfabetische sortering.

Waarom zijn de toekende exacte matches niet perfect?

Dat komt door verschillende zaken:

· Er zijn fouten gemaakt bij de codering van de bronbestanden van Source2015.sav.

· De toegekende codering in Source_2015.sav kan voortgekomen zijn uit meer informatie dan in Source_2015.sav zichtbaar is. Dit kunnen nadere omschrijving van het beroep, en indicatoren van zelfstandigheid en leidinggevendheid zijn geweest.

Zou het niet beter zijn om gebruik te maken van een of ander fuzzy matching algoritme?

In beginsel wel, maar al mijn ervaringen op dit gebied zijn dat het tijdrovend is en ook verre van perfecte resultaten oplevert.

Welke beroepencode moet ik nemen: CBS, ISKO, ISQO? Welke is beter?

In beginsel is in Source2015 uitgegegaan van de codering die in het oorspronkelijke bestand gebruikt is. Historisch gezien was dat eerst CBS (vanaf 1984), toen ISKO (vanaf 1990) en daarna ISQO (vanaf 2010). Vervolgens is gebruik gemaakt van conversies om de een uit de ander af te leiden. ISKO en ISQO zijn sterk verwant en kunnen met grote betrouwbaarheid in elkaar geconverteerd worden, waarbij dan wel enige vergroving plaatsvindt. CBS (een variant van ISCO-68) is moeilijker af te leiden uit de andere twee (en dat is daarom ook nagelaten), maar wel de meeste gedetailleerde en originele. In beginsel bevat de CBS-kolom geen geconverteerde codes.

Als je geen bijzondere reden hebt om een van drie te prefereren, zou ik voor de nieuwste (ISQO) opteren.

Waarom zijn er geen codes opgenomen voor SBC1992 (ook van het CBS)?

Er zijn maar een beperkt aantal bestanden ter beschikking met beroepenstrings en gedetailleerde SBC1992 codes. Deze classificatie sluit niet goed aan bij de internationele beroepenclassificaties en het CBS maakt er ook zelf geen gebruik meer van. Als je data hebt met SBC1992 erin, kun je die het beste omzetten in ISCO-88.

Waarom zijn missings bij CBS en ISKO als 0000 gecodeerd en bij ISQO als 9999?

Bij ISCO-08 is 0000 een geldige hoofdgroep (militairen), een zeer ongelukkig idee. Daarom is er een andere code nodig om de missende beroepen te markeren. 0000 zou hier tot grote verwarring kunnen leiden.

Links

· Source_2015.sav (zipped)

· SPSS syntax om te matchen tussen codeerbestand and Source_2015.sav

· Paper: Do’s and Don’t’s of Occupation coding

· ISCO-68

· CBS84 en SBC1992

· ISCO-88

· ISCO-08

Last revised: December 1 2015.