Data mining

Tegenwoordig verantwoorden organisaties alles wat zij met data doen. Bij data mining gaat het vooral om het geautomatieerd zoeken naar patronen in een dataset. Zo is het dus ook dat dit proces een aantal fasen kent. Als je het hebt over de daadwerkelijke data, dan zit dat vaak in het midden van zo een proces. Er zijn heel wat technieken te verdelen en dat gebeurt dan ook in zes groepen. Daarbij zijn er ook per techniek heel wat mogelijkheden. Het kan dan vaak ook lastig zijn om uit deze groepen te kiezen en de juiste parameters te gebruiken. Data mining heeft uiteindelijk ook een doel en dat is om van de informatie die ze krijgen veel betere besluiten te nemen.

 

De fasen van data mining

Als je het hebt over data mining, kan je zeggen dat een proces in verschillende fasen te verdelen is. De meeste procesmethoden delen de data mining op in een aantal fasen, zoals drie tot zes fasen. Wat wel belangrijk is om te weten, is dat je er alleen met het gebruik van data mining niet komt. Het proces begint met een aantal andere onderdelen, zoals bij het stellen van de juiste vragen. Zo ook met het samenstellen van de bijbehorende dataset. Ook eindigt het proces met een bepaald ding, en dat is met een juiste interpretatie van de resultaten. Dat lijkt dan ook meestal meteen voor de hand te liggen, maar is vaak niet zo eenvoudig als gedacht.

 

De technieken van data mining

Alle methoden in een proces kennen een soort van modelfase. Tijdens zo een stap vindt dan ook het daadwerkelijke data mining plaats. Zoals eerder verteld zijn deze technieken in zes groepen te verdelen, zoals clusteren, outlier detection, classificatie, associatieregels, regressie-analyse en comprimeren. Ook zijn er per technieken een heleboel mogelijkheden.

  • Outlier detection: Afwijkende data vinden omdat deze ook zeer interessant zijn. Ook zijn verdienen en fouten een nader onderzoek.
  • Clusteren: Het verdelen van de gegevens die verzameld zijn in gelijksoortige groepen
  • Associatieregels: Het zoeken naar een aantal verbanden tussen variabelen
  • Classificatie: Het classificeren van een email als ‘vertrouwd’ of juist als ‘spam’
  • Regressie-analyse: Het zoeken van een formule die de data het beste kan beschrijven

 

Natuurlijk zijn er nog heel wat meer informatieve dingen over data mining te vinden en kan je er nog een heleboel meer van leren. Je kan op internet de meeste informatie vinden en vraag het anders aan een expert die er alle verstand van heeft.

Data mining cijfers