In deze applicatie vind je cursussen + oefeningen + correctie in details over Data Waherouse en Data Mining
Wat is eerst "Data Warehouse"? :
Het is een soort database die een enorme hoeveelheid gegevens bevat om beslissingen binnen de organisatie te helpen nemen. Dit type database wordt gekenmerkt door de overeenstemming van de interne structuur met wat de gebruiker nodig heeft van de indicatoren en analyse-assen in het zogenaamde ster-stermodel en de toepassingen ervan: systemen beslissingsondersteuning en datamining.
Datawarehouses bevatten meestal historische gegevens die zijn afgeleid van en geëxtraheerd uit gegevens in de gebruikelijke databases die worden gebruikt in toepassingen waarop veel invoer- en updatebewerkingen plaatsvinden, en datawarehouses kunnen ook bevatten gegevens uit andere bronnen zoals tekstbestanden en andere documenten.
wat is "Data Mining"? :
Het is een geautomatiseerd en handmatig zoeken naar kennis van de gegevens zonder voorafgaande hypothesen over wat deze kennis kan zijn. Datamining wordt ook gedefinieerd als het proces van het analyseren van een hoeveelheid gegevens (meestal een grote hoeveelheid), om een logische relatie te vinden die de gegevens op een nieuwe manier samenvat die begrijpelijk en nuttig is voor de gegevenseigenaar . 'Modellen' worden relaties en samenvattende gegevens genoemd die zijn verkregen uit datamining. Bij datamining gaat het in het algemeen om gegevens die zijn verkregen voor een ander doel dan dat van datamining (bijvoorbeeld een database met transacties bij een bank), wat betekent dat de mining-methode van gegevens hebben geen invloed op de manier waarop de gegevens zelf worden verzameld. Dit is een van de gebieden waarop datamining verschilt van statistieken, en daarom wordt het dataminingproces een secundair statistisch proces genoemd. De definitie geeft ook aan dat de hoeveelheid data over het algemeen groot is, maar als de hoeveelheid data klein is, is het het beste om reguliere statistische methoden te gebruiken om deze te analyseren.
Bij het omgaan met een grote hoeveelheid gegevens ontstaan er nieuwe problemen, zoals hoe afzonderlijke punten in de gegevens kunnen worden geïdentificeerd, hoe de gegevens binnen een redelijke termijn kunnen worden geanalyseerd en hoe kan worden besloten of een duidelijke relatie een feit weerspiegelt in de aard van de gegevens. . Meestal worden gegevens geëxtraheerd die deel uitmaken van de dataset, waarbij het doel meestal is om de resultaten te generaliseren naar alle gegevens (bijvoorbeeld het analyseren van de huidige gegevens van consumenten van een product om te anticiperen op toekomstige eisen consumenten). Een van de doelen van datamining is ook het verminderen of comprimeren van grote hoeveelheden gegevens om eenvoudige gegevens zonder generalisatie uit te drukken.