In 1999 waren er nog geen chatbots of kunstmatig intelligente systemen te koop. Dus waar toen de spraak­verwarring alleen leidde tot een nat pak, kunnen de gevolgen nu groter zijn. Waarom? Omdat er nu al heel veel beslissingen genomen worden door algoritmes. En wanneer deze algoritmes worden gevoed met de verkeerde data, nemen ze ook de verkeerde beslissingen.

Verstaat je chatbot Fries, Twents, Limburgs of een ander dialect? En waarom niet? Het antwoord is simpel, omdat de bot daarop niet is getraind. Wil een intelligente machine, en ik schaar spraakherkenning hier ook onder, iets begrijpen, dan moet haar dat geleerd zijn. En wat haar niet geleerd is, weet zij ook niet.

Discriminatie

Helaas is het zo dat de datasets niet altijd even goed zijn. Eigenlijk bevatten alle datasets bias. Dat wil zeggen, de data zijn verzameld met een bepaald vooroordeel. Of er zijn bepaalde groepen mensen uitgesloten. Meestal niet opzettelijk, maar toch merkbaar. Wanneer deze bias leidt tot discriminatie op basis van gender, etniciteit of anderszins, is er reden tot zorg. Joy Buolamwini van het MIT ontdekte bijvoorbeeld dat vrouwen met een donkere huidskleur niet goed worden herkend door gezichts­­herkennings­­software. Software die gewoon op de markt verkrijgbaar is.

Ook Google onderkent dit probleem door te zeggen: ‘Menselijke gegevens bevatten standaard menselijke vooroordelen. Hiervan op de hoogte te zijn is een goed begin (…).’

Wanneer we zelf algoritmes gaan gebruiken om beslissingen te laten nemen, is het dus belangrijk eens goed naar de data te kijken. Maar wat als je de software kant-en-klaar van de markt haalt?

Fouten

Neem als voorbeeld de huidige beeldherkennings­software. Deze software presteert tegenwoordig uitstekend. Bij de herkenning van alledaagse voorwerpen doet de machine het al beter dan de mens. Dat komt doordat deze software uitgebreid getraind en getest is met miljoenen, misschien wel miljarden, voorbeelden. Maar hij maakt nog steeds fouten, net als mensen.

Wie deze software gaat gebruiken, maakt gebruik van de schat aan ervaring die de software al heeft opgedaan bij de leverancier en eerdere gebruikers. Dat is mooi, want daardoor kunnen projecten met AI veel sneller gaan. De systemen hoeven niet meer uitgebreid getraind te worden. Maar de keerzijde is, je weet niet wat en hoe hij geleerd heeft. En welke bias je in huis haalt. De software zelf (en de software­leverancier) zal het niet vertellen.

Onbewust

Je kan dan zomaar onbewust vooroordelen in huis halen. Onbewust, maar wel met alle gevolgen voor de beslissingen die de organisatie neemt. Sluiten we geen bevolkingsgroepen uit? En laten we daarmee geen kansen liggen of erger, halen we het nieuws omdat we onbewust zijn gaan discrimineren? Want daarmee wil je niet op sociale media of de televisie komen.

Deze blog post is eerder gepubliceerd op de AG Connect-blog geplaatst.

English:

When wrong data is fed into the algorithms, they also make the wrong decisions. Learn why do bots contain biases.

Well-trained software contains errors too.

Let’s start with a riddle: “A man and his son are in a terrible accident and are rushed to the hospital in critical condition. The doctor looks at the boy and exclaims, “I can’t operate on this boy, he’s my son!” How could this be?” When you’re clueless, you’re probably biased. (The answer can be found at the bottom of this blog post.)

You’re not the only one whose presumptions keep you puzzled; lots of other people are biased too – the same people who create machine learning and artificial intelligence programs. And when people make these kinds of errors, so do their creations, the algorithms that make decisions for you. And when wrong data is fed into these algorithms, they also make the wrong decisions.

But why do these bots contain biases? The answer is simple – the bot is trained with a biased data set. If an intelligent machine wants to understand something, it must have to be taught to do so. And an algorithm doesn’t know what it hasn’t learned. When you start with machine learning, you start with a blank slate.

Biased datasets

Unfortunately, datasets are not always in perfect order. In fact, all datasets contain biases, i.e., the data is collected with a certain bias; bias in the underlying model, bias in what data is collected, bias in the algorithm itself, and bias in the reporting – and bias in the humans who use it.

Certain groups of people may be excluded from the datasets, usually not intentionally, but still noticeably. When this bias leads to discrimination based on gender, ethnicity, or otherwise, this is cause for concern. For example, Joy Buolamwini from MIT discovered that women with dark skin are not well-recognized by facial recognition software – software that is available on the market.

“Human data encodes human biases by default. Being aware of this is a good start (…).” Ben Packer et al. (Google AI)

When we use algorithms to make decisions for other people, it is important to take a good look at the data. But what if you get the software ready-made from the market?

Bias included

Take the state-of-the-art image recognition software as an example. This kind of software now performs excellently. In the recognition of everyday objects, the machine fares better than humans. This is because this software has been extensively trained and tested with millions, perhaps billions, of examples. Yet it still makes mistakes, just like people do.

The user benefits from the wealth of experience that the software has already gained from the supplier and previous users. That is great because it allows AI projects to advance faster. The systems no longer need to be trained extensively. But the downside is, you don’t know how the software learned its trade. And what bias you get out-of-the-box. The software itself (and the software supplier) won’t tell you.

You can unknowingly buy prejudices together with your software. Unknowingly, but with all the consequences of the decisions that the software makes. Do you not exclude population groups? And what are the risks for getting in the news because we have started to discriminate? You don’t want to go viral with stories how your apps discriminate.

* Answer: The doctor is the mother of the boy.

This blog post has been previously posted on Capgemini blog site.

Photo Public Domain via PxHere