Hoe ontwikkel je zelf een machine learning-algoritme? Dit zijn de 5 stappen

Voorspellende waarde wordt steeds belangrijker in recruitment. Maar hoe maak je daar een algoritme voor? Martijn Roos schetst het proces in 5 stappen. ‘Jawel, ook bij algoritmes komt nog ouderwets menselijk denkwerk kijken!’

Afgelopen week schreef ik hoe data-analyse en kunstmatige intelligentie de rol van arbeidsbemiddelaars de komende jaren veranderen. In dit artikel vertel ik in 5 stappen hoe je zelf zo’n effectief machine learning-algoritme kunt (laten) ontwikkelen. Mits je in elk geval over goede data beschikt.

Stap 1: Bepaal en controleer wat je wil voorspellen

Voor de ontwikkeling van een algoritme voor kunstmatige intelligentie onderscheiden we onafhankelijke en afhankelijke variabelen. De afhankelijke variabele is datgene wat je wilt voorspellen. De onafhankelijke variabele is de input die je een model geeft om die voorspelling mogelijk te maken.

Als je hebt bepaald wát je wilt voorspellen, is het belangrijk de waarde hiervan te controleren

Als je hebt bepaald wát je wilt voorspellen, dan is het belangrijk de voorspellende waarde te controleren. Om bijvoorbeeld te kunnen voorspellen of een kandidaat geplaatst wordt bij een specifieke opdrachtgever, moet je controleren of er daadwerkelijk sprake geweest is van een plaatsing en niet van een afwijzing. En stel: je wilt voorspellen of een kandidaat een goede match is met een specifieke opdrachtgever. Dan moet je controleren in hoeverre beide partijen na verloop van tijd tevreden zijn over de plaatsing.

Stap 2: Gebruik alleen historische data als input

Een fout die je in de praktijk vaak ziet is dat een variabele wordt gekozen als input, terwijl de data ervan nog helemaal niet beschikbaar zijn. Om bijvoorbeeld een plaatsing te voorspellen, kun je kijken naar door eerdere kandidaten gemaakte assessments. Maar als je deze variabele (de uitkomst van de assessment) vervolgens toepast op nieuwe kandidaten, werkt het model niet meer. De uitslagen zijn immers nog niet bekend, of de assessments zijn zelfs nog niet gemaakt. Gebruik dus altijd historische data als inputvariabele. Alleen dan kun je betrouwbare voorspellingen doen.

Stap 3: Voorkom schijnverbanden

Als je model een verband legt tussen twee variabelen, ga dan na of er inderdaad sprake is van een directe oorzaak-gevolgrelatie. Het kan namelijk ook zo zijn dat er toeval in het spel is, of mogelijk een derde variabele, of dat de relatie de andere kant op gaat.

‘Jawel, ook bij algoritmes komt nog ouderwets menselijk denkwerk kijken!’

Een bekend voorbeeld in HR-studies is de relatie tussen de medewerkertevredenheid en financiële prestaties van bedrijven. Je kunt concluderen dat tevreden medewerkers beter presteren en daardoor de bedrijfsresultaten positief zijn. Maar het kan ook andersom werken, als een bedrijf met betere resultaten zich meer kan veroorloven om medewerkers tevreden te stellen. Dus zorg dat je inzichtelijk heeft of B een gevolg is van A, andersom of dat het juist C is die de relatie bepaalt. Jawel, ook bij algoritmes komt nog ouderwets menselijk denkwerk kijken!

Stap 4: Train en test het algoritme

Deze vierde stap bestaat uit twee onderdelen: het trainen en het testen van het model.

ad 1: Het trainen van het model

Om het model te trainen kun je een bestand gebruiken met historische gegevens van kandidaten, hun kenmerken en de resultaten (dus of ze uiteindelijk geplaatst of afgewezen zijn). Aan de hand van dit bestand kan het model zichzelf trainen om de juiste verbanden te vinden tussen de kenmerken (de variabelen) en de uitkomsten (afwijzing of plaatsing). Het machine learning-algoritme zoekt dus welke verbanden relevant zijn voor het succes van de plaatsing van de kandidaat. Zorg ervoor dat je een willekeurig deel van je bestand apart houdt, zodat deze gegevens nog niet gebruikt worden om het model te trainen.

ad 2: Het testen van het model

Nadat je je model hebt getraind kun je het toepassen op het deel van het bestand dat je eerder apart hebt gehouden. Door de voorspelling van het getrainde model te vergelijken met het werkelijke plaatsingsresultaat kun je testen hoe goed je model presteert.

‘Als je een model niet generaliseren kunt naar een volgend bestand, wordt het nagenoeg onbruikbaar’

Waarom dan een apart training- en testbestand? Kun je niet gewoon trainen en testen op álle data, zodat het model al die data heeft gezien en daarmee het best getraind is? Nou, het gevaar hiervan is dat het model te specifiek wordt en daarmee een one-trick-pony: het model heeft een trucje voor deze dataset geleerd, maar kan dit niet generaliseren naar een volgend bestand. Daarmee wordt het nagenoeg onbruikbaar. Pas als de uitkomsten van het model vergelijkbaar zijn met de gegevens in de testbestanden kun je er vanuit gaan dat een model iets heeft geleerd wat breder toepasbaar is.

Stap 5: Houd rekening met de context van de trainingsdata

De onafhankelijke inputvariabele die je een model geeft, kan cultuur- en marktafhankelijk zijn. Denk aan een arbeidsbemiddelaar die het selectieproces van kandidaten automatiseert. Als de informatie in het trainingsbestand is gebaseerd op historische menselijke besluitvorming waarin mannen de voorkeur kregen boven vrouwen, neemt het model deze context mee in de bepaling van de doelvariabele (de meest succesvolle kandidaat). Dat betekent dat vrouwen minder snel geselecteerd worden dan mannen. Houd dus rekening met de context en mogelijke vertekening in de trainingsdata, als je een eerlijk algoritme wilt ontwikkelen.

Over de auteur

Martijn Roos is Industry Expert bij Graydon, verantwoordelijk voor het hogere segment binnen de Zakelijke Dienstverlening.

Lees ook:

Arbeidsmarktplatforms: disruptie, een signaal of een hype?

Er is veel te doen over arbeidsmarktplatforms. Maar hoe moeten we ze eigenlijk zien: als disruptie, een signaal of een hype? Geert-Jan Waasdorp zoekt het uit.

  • Bijna 100.000 zelfstandigen zoeken (ook) opdrachten via online marktplaatsen/platforms in Nederland
  • Werknemers en zelfstandigen zijn steeds meer consumenten van arbeid en willen ook technologisch gefaciliteerd worden als consument
  • Van disruptie door arbeidsmarktplatforms is nog geen sprake. Van een belangrijk signaal aan jobboards, intermediairs en ATS, VMS en flexsystemen om te innoveren wel, aangezien ze snel obsolete worden.

ING zette in mei 2018 de zaak op scherp met het rapport Algoritmes versus de flexbranche, waarin de bank scenario’s schetst dat platforms 20 tot 70% van de flexmarkt zouden ‘disrupten’ in de komende 10 jaar. Als ik een advies zou geven aan een van mijn klanten met zo’n conclusie zou ik kunnen fluiten naar mijn geld. Maar met een marge van 20 tot 70% in de komende 10 jaar – zonder harde cijfers of onderbouwing – zette het rapport van de ING toch van alles in beweging.

Inmiddels zien we dat bijvoorbeeld Randstad zelf ook volop inzet op  platforms

Belangrijke reacties uit de sector komen van Randstad en de ABU, waarbij zij hun vraagtekens zetten bij de duurzaamheid van de platforms en het gevaar van het verder uithollen van het sociale systeem. Inmiddels is dat geluid wat verstomd en zien we bijvoorbeeld dat datzelfde Randstad (Randstad Go), evenals veel andere ABU-leden, nu zelf ook volop inzetten op de platforms.

Arbeidsmarktplatforms: nog onbekend en zelden winst

Maar het gaat nog lang niet zo snel met de platforms. Temper, een van de mooiste succesverhalen op de arbeidsmarkt in 2018, heeft nog geen euro winst gemaakt (aanrader is de aflevering van Tegenlicht over de klik- en kluseconomie).

Ook is een groot platform als Temper nog nauwelijks bekend bij het brede publiek. Bij de laatste 32.000 personen uit de Nederlandse beroepsbevolking die Intelligence Group ondervroeg in het kader van het Arbeidsmarkt GedragsOnderzoek, noemde niemand (!) dit platform. Dat geeft te denken! En een platform beginnen is ook geen garantie op succes, getuige ook Pack van Brunel, dat haar activiteiten alweer heeft gestopt.

De eerste cijfers over de rol van arbeidsmarktplatforms

Er wordt veel over de (mogelijke) rol van platforms gespeculeerd, maar tot op de dag van vandaag ontbreken veelal cijfers. Vandaar dat ik er een paar analyses op heb losgelaten. Eind 2018 staan online marktplaatsen op de elfde plek van opdrachtzoekkanalen van zzp’ers/freelancers. In totaal zeiden 96.210 Nederlandse zelfstandigen in 2018 dit kanaal te gebruiken om naar een opdracht te zoeken. Het is 1 van de gemiddeld 2,7 zoekkanalen die zij gebruiken.

Er wordt veel over platforms gespeculeerd, maar cijfers ontbreken veelal

Bij jongeren onder de 30 is het arbeidsmarktplatform net iets populairder: van hen zegt 1 op de 6 dit kanaal te gebruiken om aan een opdracht te komen, wat neerkomt op bijna 25.000 jongeren onder de 30 jaar. Daarbij verwacht ik dat de groep jongeren die via platforms werkt net iets groter is, aangezien niet iedereen zichzelf typeert als zelfstandige en online marktplaatsen en arbeidsmarktplatforms nog niet eenduidig zijn gedefinieerd.

Er is een veenbrand gaande bij…

Arbeidsmarktplatforms zouden in dat geval bij uitstek de brug kunnen zijn om hybride vormen van opdrachten voor zzp’ers alsmede kleine banen voor werknemers te faciliteren. Het aantal dat er nu al gebruik van maakt, is vooralsnog een druppel op een gloeiende plaat. Alhoewel een sterke groei in 2019/2020 niet uit te sluiten is.

Het signaal is namelijk wel dat er iets aan het veranderen is. Platforms in de vorm van Temper, Deliveroo of YoungOnes appelleren aan de wens dat werknemers meer eigen regie hebben in tijd en tarief. Maar ook in de keuze of ze wel of niet verzekerd willen zijn of een pensioen willen ontvangen.

Nog lang geen A.I. En zijn ze eigenlijk wel disruptive?

De pers schrijft deze platforms vaak de magie van Uber, Airbnb of anderszins toe, gedreven door A.I. Maar in de praktijk is niets minder waar (al is misschien de wens de vader van de gedachte). De matchingstechnologie die de platformen gebruiken, is meestal namelijk vooral heel simpel en heeft weinig met A.I. te maken. De belangrijkste technologische vernieuwingen die de platforms bieden, is gewoon dat zij eigentijds en kandidaatgericht het systeem hebben ingericht, namelijk:

  • Mobile first
  • Kandidaatgericht: Zelfstandige/kandidaat bepaalt tijd (wanneer werken) en prijs (uurtarief waarvoor beschikbaar/accepteren)
  • Maximaal flexibel
  • Eenvoudig te gebruiken en opdrachten gemakkelijk te accepteren
  • Snel uitbetaald krijgen
  • Reageren in één klik
  • Communiceren via chat

De opkomst van de platforms is een dringend signaal dat de markt moet innoveren

Ik weet niet per se of dit disruptive is, maar de opkomst van deze platforms kan natuurlijk wel verregaande gevolgen hebben voor alle huidige aanbieders van vacatures, banen en opdrachten. Van intermediairs tot en met jobboards, die met desktop gedreven old-school-‘legacy’-systemen de kandidaat proberen te verleiden, worden hiermee voorbijgelopen. Ook de ATS-, VMS- en flexsystemen gaan last krijgen van de opkomst van platforms. Buiten Otys en Tigris is geen enkel bestaand systeem ook maar deels in staat om ‘platforms’ in te richten, blijkt na een rondje bellen naar de 20 belangrijkste systemen. Dat geeft te denken… de markt is veranderd en de rest kijkt vooralsnog toe.

Achterhaald zijn is iets anders dan disrupt worden

De opkomst van arbeidsmarktplatforms is een dringend signaal dat de andere partijen in de markt moeten innoveren. En dan vooral in het communiceren en verleiden van de kandidaat en de zelfstandige. De manier waarop we de afgelopen 15 tot 20 jaar met deze groep hebben gecommuniceerd is drastisch aan het veranderen. Dat is eigenlijk niet eens schokkend, want als consument op Amazon, Bol.com of KLM.nl vinden we het nu al de normaalste zaak van de wereld om anders aangesproken te worden. Waarom niet op jobboards of als we contact hebben met een flexbureau?

Arbeidsmarktplatforms zijn de markt niet aan het disrupten, het zijn werknemers die steeds meer consumenten van arbeid worden

Platforms spelen perfect in op de wensen van de huidige en toekomstige werknemer en zelfstandige. Met kernwoorden als flexibiliteit, vrijheid en mobile first. Als de flexmarkt en de ondersteunende technologische systemen meegroeien met de wensen van de huidige tijd, dan worden platforms net zoveel een ander kanaal als bijvoorbeeld nu sociale media. Nothing to worry about… Arbeidsmarktplatforms zijn de markt niet aan het disrupten, het zijn werknemers die steeds meer consumenten van arbeid worden en daarin ook modern willen worden gefaciliteerd. Platforms doen dat nu al. Als de rest niet meegroeit en meebeweegt, worden ze vanzelf obsolete. En dat is iets anders dan ge-disrupt.

Over de auteur

Geert-Jan Waasdorp is oprichter van Intelligence Group en mede-oprichter van Werf& en de Academie voor Arbeidsmarktcommunicatie.

Lees ook:

Google for Jobs komt eraan: ben jij er al helemaal klaar voor?

Google is er zelf nog zo gesloten over als een oester. Maar als de voortekenen niet bedriegen, komt Google for Jobs (heel?) binnenkort ook naar Nederland. Er schijnen momenteel zelfs al testen gedaan te worden, zowel bij ons als in Frankrijk. En in Duitsland is ook al gestart met de uitrol, nadat de zoekmachine eerder in VS, Japan, India, Zuid-Afrika, Argentinië, Brazilië, Mexico, Kenia, Nigeria, het Verenigd Koninkrijk en Spanje deze speciale vacaturesectie lanceerde. Dit zou betekenen dat Nederlandse werkzoekenden binnen afzienbare tijd in hun Google-zoekresultaten direct vacatures te zien zullen krijgen.

Ben jij er klaar voor? Let op deze 2 aspecten

Wat betekent dit voor jou als je een werkgever of intermediair bent en met regelmaat online vacatures publiceert? Als je een ATS gebruikt dat z’n zaakjes goed op orde heeft én als je nu al aandacht besteedt aan je vacatureteksten, no stress. Doe je dat niet? Time for a change. Om klaar te zijn voor de komst van Google for Jobs zijn er namelijk 2 aspecten zeer belangrijk: de technische kant en de tekstuele optimalisatie.

#1. De technische kant

Laten we starten bij het technische deel. Wil je dat Google for Jobs dadelijk ook jouw vacatures vindt, dan moet je zorgen dat de data op je vacaturedetailpagina te indexeren zijn door Google for Jobs. Dat betekent dat deze pagina structured data moet bevatten, waaronder de publicatiedatum, de locatie, het dienstverband en het salaris. Met structured data bedoelen we dat deze gegevens via een code aan de achterkant van je vacaturedetailpagina moeten worden weergegeven. Voor de meesten in recruitmentland is dat een taak voor de aanbieders van een Applicant Tracking System.

‘Voor de meesten in recruitmentland zijn de structured data een taak van de ATS-aanbieders’

Zijn alle ATS’en al klaar voor de komst van Google for Jobs? ATS’en zijn hierover maar weinig spraakzaam over op hun eigen sites, het laatste bericht op de site van Bullhorn over de Job Search Experience dateerde uit 2017. Recruitee blogt dat voor zijn klanten in de UK en US alles is geregeld, maar hoe zit dat met de Nederlandse klanten? Die vraag bleef onbeantwoord, dus stelde ik die vraag binnen mijn netwerk, waaronder in Facebookgroep Recruitment Vrijstaat. Ook hier bleef een concreet antwoord echter uit. Wel werd Hireserve als goed voorbeeld genoemd, in combinatie met Endouble. Zo is Albert Heijn al heel lang ‘Google for Jobs-proof’ door de combinatie van Hireserve en Endouble.

  • Benieuwd of jouw vacaturedetailpagina technisch al klaar is voor Google for Jobs? Doe de test.

#2. Het tekstuele deel

Dan part two: schrijf je nu al goede vacatureteksten voor Google for Jobs? Oftewel: maak je de juiste keuze voor de functienaam in je vacaturetekst? Heb je een ijzersterk intro? En benoem je het salaris? Als je nu al echt aandacht besteedt aan een goede vacaturetekst, is het waarschijnlijk nauwelijks nodig je gameplan aan te passen.

‘Raffel je nu je vacatureteksten af, of copy-paste je het functieprofiel? Dan is er serieus werk aan de winkel’

Raffel je echter je vacatureteksten af? Doe je aan copy-paste van het functieprofiel? Of gooi je de wervingstekst vol met clichés? Dan is er serieus werk aan de winkel. Met een zesje voor je vacaturetekst kom je er namelijk niet meer bij Google for Jobs. De zoekmachine rekent je keihard af op transparantie en op de kwaliteit van de teksten. En met kwaliteit bedoel ik niet alleen de inhoud, maar ook dat je geen spelfouten maakt, Google noemt juiste spelling nu al een rankingsfactor.

Ben je een intermediair en doe je vaag over de ‘opdrachtgever’ of over de exacte locatie van de werkzaamheden? Dan krijg je het extra zwaar. Transparantie is zó belangrijk voor Google for Jobs, dat je als intermediair eigenlijk wel om exclusiviteit móét vragen als je straks die goede positie in de zoekresultaten wilt. Die exclusiviteit geeft je de kans jouw opdrachtgever bij naam te noemen, plus dat je dan het exacte adres kunt vermelden.

En dan nog… de derde component

Er is overigens nog een derde aspect van toepassing op hoe hoog je straks in de zoekresultaten komt. En dat is de vraag: plaats je jouw vacatures op de juiste kanalen? Google geeft aan hierbij een voorkeur te hebben voor bedrijven met een stevige online ‘voetafdruk’. Bovendien partneren Monsterboard, Glassdoor en Careerbuilder al met Google. Wat dat in de praktijk (waarschijnlijk) betekent? Dat een vacature op Monsterboard meer rankingpunten oplevert dan een publicatie op een vacaturebank die Google kent als het regionale sufferdje. En dus hoger zal scoren.

Moet Indeed al bang worden?

En Indeed dan, dat al jarenlang wereldwijd de nummer-1-vacaturesite is? Indeed trekt meer dan 250 miljoen unieke bezoekers per maand, en is beschikbaar in meer dan 60 landen in 28 talen. Daarmee wordt 94% van het wereldwijde BNP bereikt.

‘Als Google Indeed zou buitensluiten, zou dat oneigenlijk gebruik van zijn monopolie zijn’

Het marktaandeel, het gemak en de bekendheid van Indeed zijn dus waanzinnig groot. Maar dat van Google is nog veel groter. Dus moet Indeed zich zorgen maken over zijn toekomst? Waarschijnlijk (nog) niet. Ook Google for Jobs kan immers niet zomaar om de vacaturezoekmachine heen. In woorden van innovation recruitment consultant Patrick Boonstra: ‘Als Google Indeed zou buitensluiten, zou dat oneigenlijk gebruik van zijn monopolie zijn.’

Hoeveel traffic gaat van Google naar Indeed?

Bij mij rijst de vraag hoeveel traffic nu vanuit Google naar Indeed gaat. Ik weet het niet zeker, maar ik denk dat dat veel is. Zeker omdat ik zelf zo’n gebruiker ben die via Google Chrome ‘alles’ googelt. Als ik dan bij een vacaturezoekopdracht nu de Google Ads negeer, domineren de Indeed-resultaten nu vrijwel altijd de eerste zoekresultaten. En zo kom ik dus meestal linea recta bij Indeed terecht…

vacature indeed google for jobs

Google pakt straks voor jobs hoogstwaarschijnlijk de toppositie

Met de komst van de Job Search Experience verandert dit beeld naar verwachting aanzienlijk. Google pakt straks voor zijn Jobs hoogstwaarschijnlijk zelf die toppositie. Daardoor verschuiven de Indeed-zoekresultaten naar beneden, misschien zelfs wel tot ‘onder de vouw’. Een mooi voorbeeld daarvan zien we nu al bij Google Shopping, dat op veel vlakken te vergelijken is met Google for Jobs:

Moet je stoppen met adverteren bij Indeed? Nee.

Moet je dan stoppen met adverteren of niet langer je teksten optimaliseren voor Indeed? Nee. Zoals eerder aangegeven zijn het marktaandeel, het gemak en de bekendheid van Indeed nu al groot(s). Google for Jobs is dichtbij, laat internationaal mooie resultaten zien, maar is nog niet gelanceerd in Nederland. Hier geldt dus mijns inziens: resultaten uit het verleden die Indeed al wel kan tonen, bieden wél garantie voor de toekomst. Want hoewel ik heilig erin geloof dat Google for Jobs een gamechanger wordt binnen recruitend Nederland, moet Google dat natuurlijk eerst nog wel laten zien.

Je moet nu zorgen dat je technisch klaar bent voor Google for Jobs én ijzersterke vacatures gaan schrijven

Wat je dus nú al wel moet doen? Zorgen dat je technisch klaar bent voor de komst van Google for Jobs én zorgen dat je ijzersterke vacatureteksten schrijft.

nicol tadema salarisOver de auteur

Dit blog is geschreven door Nicol Tadema, directeur, trainer en adviseur bij Voor Tekst.

Lees ook: