Algoritmes zijn niet neutraal: op deze 5 gebieden kan het misgaan

De inzet van algoritmes in recruitment heeft een hoge vlucht genomen: cv-screening, videointerviews, chatbots, gezichtsherkenning, … de mogelijkheden zijn legio. Maar hoe neutraal is die technologie eigenlijk? 5 vlakken waarop het kan misgaan.

Peter Boerman Op 28 augustus 2019
Gem. leestijd 8 min 1612x gelezen
Deel dit artikel:
Algoritmes zijn niet neutraal: op deze 5 gebieden kan het misgaan

Een jaar geleden bleek het algoritme dat Amazon gebruikt om personeel te selecteren, gevoelig voor discriminatie. Maar al in 2011 waarschuwden onderzoekers Solon Barocas en Andrew Selbst hiervoor. In het artikel Big data’s disparate impact schrijven ze over de gevaren die data mining, AI, machine learning en algoritmes in werving en selectie kunnen vormen. Dit leidt volgens hen tot 5 mogelijke vormen van bias en potentiële bronnen van discriminatie.

In een recente artikelenreeks behandelt de NSvP (Nederlandse Stichting voor Psychotechniek) al die 5 vormen nog eens uitgebreid:

  1. De ‘target variable’ en ‘class labels’
  2. Trainingsdata 
  3. Feature selection,
  4. Proxies, en
  5. Masking

Omdat het ook voor recruiters zo’n relevant onderwerp is, hierbij nog eens een samenvatting daarvan:

Bias #1: De doelvariabele

Stel, een organisatie wil bepalen wie je uit een grote groep kandidaten moet selecteren. Dan kun je in een grote dataset aangeven wie in de afgelopen tijd beviel als hoogproductieve, ‘goede werknemer’, om vervolgens het algoritme op zoek te laten gaan naar een nieuw succesverhaal.

Maar meteen dienen zich dan vragen aan. Belangrijk daarbij zijn de begrippen ‘target variables’ (doelvariabelen) en ‘class labels(klassenlabels). De doelvariabele slaat op de gewenste uitkomst, in dit voorbeeld: een ‘goede’ werknemer. De klassenlabels verdelen alle mogelijke eigenschappen van de doelvariabele in categorieën. Maar hoe dat begrip van ‘een goede werknemer’ te vertalen naar een programmeerbare probleemstelling? Dat is een subjectieve stap, die gevoelig kan zijn voor discriminatie.

Wat als je kijkt naar wie vaak te laat komt? Ook hier kan discriminatie het algoritme insluipen.

Zo kun je bijvoorbeeld ervoor kiezen om de arbeidsduur bij je organisatie als variabele te nemen. Maar wat als vrouwen gemiddeld korter bij je werken, omdat ze er eerder voor kiezen een aantal jaar voor de kinderen te zorgen? Dat zou hen systematisch benadelen in het algoritme. Of, ander voorbeeld: wat als je kijkt naar wie vaak te laat komt? Ook hier kan discriminatie het algoritme ‘insluipen’, als bijvoorbeeld armere mensen over het algemeen verder blijken te moeten reizen.

Bias #2: De trainingsdata

Het gaat bij algoritmes niet alleen om wat je als doelvariabele benoemt, maar ook om hoe je het algoritme traint. Van de vijf mechanismen is dit misschien wel hét belangrijkste aspect om bewust van te zijn, aldus de auteur.

Van de vijf mechanismen is dit misschien wel hét belangrijkste aspect om bewust van te zijn.

De data waarmee een algoritme zich voedt, vallen uiteen in twee categorieën: labelling examples’ en data collection’. Bij ‘labelling examples’ draait het erom hoe voorheen keuzes zijn gemaakt  – als eerder foutieve of onbetrouwbare data zijn gebruikt, zal het algoritme de vooroordelen hiervan immers reproduceren. ‘Data collection‘ is waar het misging in het eerdergenoemde Amazon-voorbeeld: het bedrijf wilde werknemers aannemen die dezelfde kwaliteiten bezaten als hun meest succesvolle werknemers van de afgelopen 10 jaar. Maar omdat in die periode de meeste sollicitaties van mannen kwamen, werden dankzij het selectie-algoritme ook vooral mannen aangenomen. Een helder voorbeeld van ondervertegenwoordiging van vrouwen in de dataset. Op basis hiervan leerde het algoritme zichzelf dat het mannelijk geslacht vele malen succesvoller was. Het besloot daarom mannen de voorkeur te geven.

Pas op voor ondervertegenwoordiging

Ondervertegenwoordiging is iets waarover veel onderzoekers zich zorgen maken. Het systematische uitsluiten van mensen die leven op de rand van de ‘big data’-samenleving, zorgt ervoor dat hun leven minder ‘datafied’ is – er worden simpelweg systematisch minder gegevens over hen verzameld. Met als gevolg dat ze ook minder komen bovendrijven bij een zoektocht. Bij analyse van zulke slecht samengestelde datasets liggen foutieve conclusies en discriminatie op de loer.

Bij analyse van slecht samengestelde datasets ligt discriminatie continu op de loer.

Het onderwerp ‘trainingsdata’ biedt ontzettend veel voorbeelden wat betreft (onbedoelde) discriminatie. Bekend is ook het Britse St. George’s ziekenhuis, dat een computerprogramma ontwikkelde om aanmeldingen voor hun medische school te sorteren op basis van eerdere toelatingsbeslissingen. Die eerdere (menselijke) beslissingen bleken echter systematisch aanmeldingen afgekeurd te hebben van vrouwen en etnische minderheden, terwijl zij op papier even geschikt waren. Hierdoor leerde het computerprogramma zichzelf dezelfde ‘regels’ aan: door het toelatingsproces te automatiseren werden de oude vooroordelen dus systematisch herhaald, wat de carrièrevooruitzichten voor vrouwen en etnische minderheden systematisch negatief beïnvloedde. Een klassiek voorbeeld dus van ‘garbage in = garbage out’. LinkedIn maakt zich hier overigens op een soortgelijke manier schuldig aan, met zijn Talent Match-functie, aldus de auteur.

Bias #3: Feature selection

Feature selection gaat om de kenmerken die een organisatie selecteert om het algoritme te laten uitzoeken. Denk: ‘wil je een slimme kandidaat – neem dan iemand met een universitair diploma’. Je kunt een algoritme immers niet ieders IQ laten achterhalen. Maar is dat kenmerk wel het beste om de eigenschap vast te stellen?

In de fase van ‘feature selection´ kiezen bedrijven vaak voor kenmerken die redelijk (goedkoop) voor het grijpen liggen. Maar door slechts een paar indicatoren te selecteren kan een bias ontstaan. Laten we even bij het voorbeeld van opleidingsniveau blijven. Met name in Amerika is de reputatie van de universiteit waar je hebt gezeten heel belangrijk. Maar toegelaten worden tot zulke universiteiten vereist vaak een flinke portemonnee en zegt lang niet altijd iets over iemands werkelijke kwaliteiten. Dat kan dus leiden tot indirecte discriminatie.

Waar je bent afgestudeerd, zegt lang niet alles over je kwaliteiten.

Bedrijven hebben dus goede redenen om naar méér eigenschappen te kijken dan alleen academische kwalificaties, maar deze informatie is nu eenmaal gratis beschikbaar, en daarom nemen ze er toch genoegen mee. Dat ze hiermee veel (en mogelijk zelfs veel betere) kandidaten buitensluiten is een rationele keus: het bespaart geld, en ze weten dat de overwogen kandidaten toch uitstekende capaciteiten en kennis hebben ontwikkeld.

Bias #4: Proxies

Een vierde bias in algoritmes kan ontstaan bij ‘de ‘zelfstandige’ beslissingsprocessen van algoritmes, oftewel de ‘proxies’. Proxies zijn cijfers die correlaties aanduiden tussen bepaalde concepten, zodat ze kunnen dienen als een soort voorspellers. Denk: blond haar als een proxy voor een blank huidtype. Aan de hand van zulke correlaties delen algoritmes mensen in groepen in. En ook dit kan weer tot bias en (onbewuste) discriminatie leiden.

‘Uit iemands Facebook-vrienden kan al diens geaardheid worden afgeleid.’

Het probleem komt voort uit wat onderzoekers ‘redundant encodings’ noemen, of: overtollige coderingen. Hiervan is sprake als relevante informatie voor een bepaalde keuze onverwacht zo gecodeerd is dat deze ook lidmaatschap van bepaalde groepen kan aanduiden. Zo stelde een onderzoek al eens dat uit iemands Facebook-vriendschappen diens seksuele geaardheid zou kunnen worden afgeleid, zonder dat de gebruikers dit expliciet vermeldden.

Wat zit er in de black box?

Algoritmes blijken dus in staat patronen te herkennen, en conclusies te trekken, zonder dat de dataset daar expliciete informatie over bevat. Dat kan er vervolgens in resulteren dat het algoritme – geheel onbedoeld – de nieuw verzamelde informatie meeneemt in het keuzeproces. Waar dit kan misgaan, maakte bijvoorbeeld Cathy O’Neil duidelijk in haar boek ‘Weapons of Math Destruction’: een Engels bedrijf gebruikte een recruitment-algoritme op basis van eerdere aannamedata. In het verleden waren echter steeds kandidaten met mindere bekwaamheid in het Engels afgewezen; meestal mensen met een buitenlandse achtergrond. Dit resulteerde erin dat het algoritme ‘leerde’ dat ‘Engelse’ namen geassocieerd werden met betere kwalificaties dan ‘buitenlandse’ namen. Zulke namen werden zo een proxy voor: slechte bekwaamheid in het Engels. Discriminatie op naam blijkt dus ook niet zomaar te voorkomen door – op voorhand neutrale – algoritmes in te zetten.

‘De ‘black box’ lijkt momenteel de grootste zorg omtrent de algoritmisering van de samenleving.’

Het proxy-probleem blijkt lastig op te lossen. Want door eenvoudigweg deze variabelen uit de datamining-oefening te verwijderen, worden ook vaak de criteria verwijderd die aantoonbare en gerechtvaardigde relevantie hebben. Maar verwijder je ze niet? Dan zullen de algoritmes keer op keer nieuwe patronen blijven ontdekken. Vaak wordt hierbij gesproken van ‘the black box’. Deze ‘black box’ lijkt momenteel de grootste zorg omtrent de algoritmisering van de samenleving. Hoe meer we willen weten, hoe minder we nog kunnen volgen hoe kennis tot stand komt. We worden daarmee steeds afhankelijker van het systeem. Dat maakt het des te lastiger biases te voorkomen.

Bias #5: Masking

Het laatste gebied waarop het gebruik van algoritmes onbewust discriminatie in de hand kan werken, gaat om handvatten om juist bewúst te discrimineren. Dit wordt aangeduid met de term: masking. Algoritmes kunnen traditionele vormen van opzettelijke discriminatie namelijk makkelijker maskeren. Simpel gezegd: elke vorm van discriminatie die onopzettelijk gebeurt, kan net zo goed opzettelijk zijn gedaan.

‘Elke vorm van discriminatie die onopzettelijk gebeurt, kan net zo goed opzettelijk zijn gedaan.’

Ten eerste kan men bijvoorbeeld knoeien met de dataverzameling. Denk: met opzet de verzameling van gegevens beïnvloeden om ervoor te zorgen dat data mining patronen onthult die minder gunstig zijn voor leden van bepaalde groepen. Ten tweede kunnen besluitvormers er voor kiezen om beperkte algoritmes in te zetten die alleen ‘kort door de bocht’ redenaties mogelijk maken – met als resultaat meer beslissingen op basis van foutieve aannames. Of ze maken juist gebruik van de overmatige nauwkeurigheid van algoritmes. Met andere woorden: datamining kan werkgevers de kans bieden leden van bepaalde groepen te onderscheiden (en te benadelen), zelfs als ze niet expliciet weten tot welke groep iemand behoort. En bewijzen dat een bedrijf met zulke intenties handelt blijkt bijzonder moeilijk. Dit geeft ze bijna vrij spel om opzettelijk te discrimineren.

Puur hypothetisch voorbeeld

Een puur hypothetisch voorbeeld: een organisatie zou zwangere vrouwen kunnen discrimineren, terwijl die discriminatie moeilijk te ontdekken zou zijn. Zo heeft de Amerikaanse winkel Target naar verluidt een ‘zwangerschaps voorspelling’-score opgesteld, door het winkelgedrag van klanten te analyseren op basis van ongeveer 25 producten. Koopt een vrouw een paar van die producten, dan kan Target redelijk nauwkeurig voorspellen dat ze zwanger is. Target gebruikte deze voorspelling voor gerichte marketing, maar een organisatie zou een dergelijke voorspelling natuurlijk ook kunnen gebruiken voor uitsluiting van deze groep bij sollicitaties.

Conclusie: het gebeurt nu ook al

Gelukkig zijn er redenen om ons niet al te druk te maken over deze laatste vorm van variatie, aldus de auteur. Want dit soort discriminatie is natuurlijk niet voorbehouden aan algoritmes. De meeste gevallen van discriminatie op de arbeidsmarkt zijn nu al moeilijk genoeg om te bewijzen; en werkgevers die echt willen handelen naar hun vooroordelen hebben er weinig baat om zulke complexe en kostbare mechanismen te ontwikkelen om hun bedoelingen verder te maskeren.

Algoritmes kunnen discriminatie in de hand werken, maar dat maakt ze nog niet op voorhand ongeschikt.

En zo is het natuurlijk maar net. Algoritmes kunnen discriminatie op allerlei manieren in de hand werken, maar dat maakt ze nog niet op voorhand minder geschikt voor werving en selectie dan het menselijke oordeel. Zoals Bas van de Haterd hier al eerder stelde: ‘Als mij wordt gevraagd wordt waarom ik zo positief ben over het gebruik van algoritmes in selectiek, dan is dat omdat het algoritme dat we nu gebruiken – het algoritme in ons hoofd – kapot is. Omdat ik geloof dat we de lat niet heel hoog hoeven te leggen als we het beter willen doen dan we het nu doen.’

Doe mee aan de challenge

De organisatie achter de oorspronkelijke artikelenreeks, de NSvP, stelt 3x 10.000 euro aan subsidie ter beschikking voor innovatieve plannen die laten zien wat de meerwaarde is van AI in werving en selectie en die demonstreren dat de bijdrage van AI een betere en meer inclusieve arbeidswerking genereert ten opzichte van traditionele recruitmentprocessen.

Wil je meedoen aan deze AI x Recruitment Challenge? Of de informatie over de Challenge nog eens rustig nalezen? Kijk dan op de speciale Challenge-pagina. Op 4 september sluit de inschrijving.

Of kijk eerst eens rond in het dossier Algoritmisering van de Arbeidsmarkt, waar ook de artikelen van Céline Blom te vinden zijn.

Lees ook:

Deel dit artikel:

Peter Boerman

Hoofdredacteurbij Werf&
Hij heeft eigenlijk nog nooit een vacature uitgezet. En meer sollicitatiegesprekken gevoerd als kandidaat dan als recruiter of werkgever. Toch schrijft Peter Boerman alweer een jaar of 10 over weinig anders dan over de wondere wereld van werving en selectie, in al zijn facetten.
Bekijk volledig profiel

Premium partners Bekijk alle partners