Blog Hannah

 

By Hannah Deen

 

Wat is Data Science en Machine Learning nu eigenlijk?

Een snelcursus in de basics van Machine Learning om de algemene misverstanden uit de wereld te helpen en om beter te begrijpen hoe je Kunstmatige Intelligentie kan toepassen in een bedrijf.

 

Bij Qlouder krijgen we een hoop mensen over de vloer die dromen over het inlijven van Machine Learning en Big Data in hun bedrijf. Dit zonder dat zij echt weten waar ze moeten starten. Iedereen wil mee op de Kunstmatige Intelligentie-kar, maar, vaker dan niet, hebben deze mensen onrealistische verwachtingen. En waarom zouden ze deze niet hebben? De media staat vol met ogenschijnlijk surrealistisch klinkende verhalen over de oneindige mogelijkheden die kunstmatige intelligentie biedt.

Je hebt misschien opgemerkt dat ik al drie verschillende termen heb gebruikt: Data Science, Machine Learning en Kunstmatige Intelligentie. Deze termen worden vaak incorrect en door elkaar gebruikt, en hoewel er controverse bestaat over de correcte definities van deze termen, zal ik mijn opvatting delen



Machine Learning is de term die gebruikt wordt voor het beschrijven van de algoritmes die een machine bepaalde taken aan te leren. Ik zal hier later meer over uitleggen, maar om je een idee te geven: door Machine Learning kunnen we een machine aanleren om ons te vertellen wat er in een bepaalde foto staat en of een bepaalde mail spam is of niet. Andere voorbeelden zijn het aanleren om correct te voorspellen hoe de voorraad zal veranderen tijdens Kerst, of waar de delivery trucs heen moeten. Een algoritme geeft dus een antwoord op één enkele vraag.


Kunstmatige Intelligentie is een bredere term die doelt op het vermogen van machines om zowel algemene als specifieke besluiten te nemen. Machine Learning is het proces, Kunstmatige Intelligentie is het resultaat. Algemene Kunstmatige Intelligentie (Artificial General intelligence), is het doel waar veel onderzoekers van dromen. Namelijk dat een machine zelf allerlei verschillende besluiten kan nemen. Het is de soort Kunstmatige Intelligentie waar we aan denken als we spreken over Space Odysseys’s HAL 9000, of haar Samantha. Dit soort Kunstmatige Intelligentie bestaat op het moment echter niet en kan dus niet jouw bedrijf leiden terwijl jij lekker in Cuba ontspant.

Still uit Space Odyssey

 

En tot slot: Data Science is de studie en het bezig zijn met alles rond data. Het is een algemene term voor expertise in data munging, data analyse, Machine Learning en data visualisatie. Onze Data Science-sprint omhelst alles van het bouwen van een data lake, een dashboard die resultaten weergeeft tot een web-scraper, of wat je ook maar kan verzinnen. In tegenstelling tot deze sprint, is onze Machine Learning-sprint veel meer gefocust op het daadwerkelijk bouwen. Bijvoorbeeld het bouwen van een neuraal netwerk via TensorFlow om in een bedrijf classificatie te automatiseren.

 

De meest voorkomende misvattingen:

Nu de terminologie duidelijk is, is het tijd om een aantal misvattingen over de capaciteit van Machine Learning bloot te leggen.

“Het enige wat we nodig hebben is data, veel data.”

Bron: xkcd

Mensen horen zoveel over Big Data, en hoeveel data je nodig hebt om een neuraal netwerk te trainen, dat ze denken dat data het enige is wat belangrijk is in de Machine Learning-wereld. Zolang je terabytes aan data hebt, zal het wel goed zijn. Het probleem is echter dat als je data slechte data is, het eigenlijk niet uitmaakt hoeveel je er van hebt. Laat ik een voorbeeld geven: het Amerikaanse leger wilde ooit een algoritme trainen om tanks te kunnen detecteren die achter bomen verstopt worden. Hun dataset zat vol met foto’s van hetzelfde bos. In de ene dataset waren er tanks tussen de bomen verstopt, in de andere dataset niet. De training ging goed, het neurale netwerk dat ze trainden kon precies aangeven of er een tank was of niet. Echter, op nieuwe afbeeldingen leek het resultaat van de algoritme totaal random. Na veel verwarring, realiseerden de onderzoekers dat alle foto’s met tank waren genomen op bewolkte dagen, terwijl de foto’s zonder tank waren genomen op zonnige dagen.

 

Het had niet uitgemaakt of het algoritme 50,5000 of 5000000 foto’s had bevat, het was gewoon heel goed in bepalen of het een zonnige of bewolkte dag was. We moeten dus goed nadenken en voorzichtig zijn met de data die we gebruiken en ons de vraag stellen waarom we het gebruiken. Als we een specifieke vraag willen beantwoorden, of voor een specifieke taak willen trainen, hebben we ook specifieke data nodig.

 

“Modellen blijven leren, zolang je ze maar data voert”

Deze horen we vaak. Het idee is dat als je een model bouwt en het vervolgens ergens in werking stelt, dat het blijft leren. Eeuwig. Het model wordt slimmer en slimmer hoe langer het draait, omdat het bij wijze van spreken leert door te doen.

In het algemeen is dit niet hoe modellen werken. Het leren is een proces dat enkel gebeurt wanneer je het model initieel traint. Het komt er op neer dat wij in de training fase, het model -of de machine- een bepaalde taak aanleren wat het daarna uitvoert. Om een voorbeeld te geven: Machine Learning wordt vaak gebruikt voor classificatie. Een ‘binary classifier’ is een algoritme dat detecteert of een bepaald iets, daadwerkelijk het bepaalde iets is, of niet.

Dus, wat kan Machine Learning?

De dingen die één enkel Machine learning model kan doen, zijn redelijk gelimiteerd. Dat maakt het ook direct makkelijker om realistische uitdagingen te verzinnen die kunnen helpen in een bedrijf.

 

1. Is het dit, of dat?

Dit probleem heet het classificatie probleem. Voorbeelden zijn: zal deze pijp snel breken, ja of nee? Is het dier in deze foto een kat of een hond? Of, één van onze recente projecten: zien we in deze foto rook, vuur of geen van beide? Je kunt je voorstellen dat automatisch detecteren van de aanwezigheid van iets in afbeeldingen, of het classificeren of iets zal breken of niet, kan ondersteunen in gezondheid, veiligheid en onderhoud in vele bedrijven.

 

2. Is dit goed?

Bij dit soort problemen wordt er gebruik gemaakt van anomaly detection algoritmes. Afwijkingsdetectie wordt vaak gebruikt in het detecteren van fraude, of het waarschuwen voor breuken in systemen.

 

3. Hoeveel?

Voor deze vraag worden regressie algoritmes gebruikt. Deze zijn veel voorkomend in de financiële sector en bij het voorspellen van weer.

 

4. Wat zijn de groepen?

Deze vraag wordt opgelost door clustering algoritmes. In dit geval geef je een algoritme een bundel ongelabelde data en vraagt het om het in groepen te sorteren. Dit kan bijvoorbeeld worden gebruikt om op profieltypes te sorteren, als je wil begrijpen wat voor soorten mensen je product kopen.