I denne applikation finder du kurser + øvelser + korrektion i detaljer om Data Waherouse og Data Mining
Hvad er "Data Warehouse" først? :
Det er en type database, der indeholder en enorm mængde data, der hjælper med at træffe beslutninger i organisationen. Denne type database er kendetegnet ved, at dens interne struktur er i overensstemmelse med, hvad brugeren har brug for fra indikatorerne og analyseakserne i det, der kaldes star-star-modellen, og dens applikationer: systemer beslutningsstøtte og data mining.
Datavarehuse indeholder normalt historiske data, der er afledt og uddraget fra data i de sædvanlige databaser, der bruges i applikationer, hvor mange input- og opdateringsoperationer finder sted, og datavarehuse kan også indeholde data fra andre kilder såsom tekstfiler og andre dokumenter.
hvad er "Data Mining"? :
Det er en computeriseret og manuel søgning efter viden om dataene uden foreløbige hypoteser om, hvad denne viden kan være. Data mining er også defineret som processen med at analysere en mængde data (normalt en stor mængde) for at finde et logisk forhold, der opsummerer dataene på en ny måde, der er forståelig og nyttig for dataejeren . "Modeller" kaldes relationer og resumédata opnået fra data mining. Data mining handler generelt om data, der er opnået til et andet formål end data mining (f.eks. En database over transaktioner i en bank), hvilket betyder, at minedriftmetoden til data påvirker ikke måden, hvor selve dataene indsamles. Dette er et af de områder, hvor data mining skiller sig fra statistikker, og derfor kaldes data mining processen en sekundær statistisk proces. Definitionen indikerer også, at datamængden generelt er stor, men hvis datamængden er lille, er det bedst at bruge regelmæssige statistiske metoder til at analysere dem.
Når man beskæftiger sig med en stor mængde data, opstår der nye problemer, såsom hvordan man identificerer forskellige punkter i dataene, hvordan man analyserer dataene inden for en rimelig tid, og hvordan man kan beslutte, om et tilsyneladende forhold afspejler en kendsgerning i datas karakter. . Normalt ekstraheres data, der er en del af datasættet, hvor målet normalt er at generalisere resultaterne til alle dataene (for eksempel at analysere de aktuelle data fra forbrugere af et produkt for at foregribe fremtidige krav forbrugere). Et af målene med data mining er også at reducere eller komprimere store mængder data for at udtrykke enkle data uden generalisering.