Tästä sovelluksesta löydät kursseja + harjoituksia + korjaus yksityiskohdista Data Waherouse- ja Data Mining -sovelluksista
Mikä on "Data Warehouse" ensin? :
Se on eräänlainen tietokanta, joka sisältää valtavan määrän tietoja päätöksenteon auttamiseksi organisaatiossa. Tämän tyyppiselle tietokannalle on ominaista sen sisäisen rakenteen yhdenmukaisuus sen kanssa, mitä käyttäjä tarvitsee indikaattoreiden ja analyysiakselien suhteen ns. Tähti-malliin, ja sen sovellukset: järjestelmät päätöksenteon tuki ja tiedon louhinta.
Tietovarastot sisältävät yleensä historiallisen datan, joka on johdettu ja poistettu tiedoista tavanomaisissa tietokannoissa, joita käytetään sovelluksissa, joissa tapahtuu monia syöttö- ja päivitystoimenpiteitä, ja tietovarastot voivat myös sisältää tiedot muista lähteistä, kuten tekstitiedostot ja muut asiakirjat.
mikä on "tiedon louhinta"? :
Se on tietokoneistettu ja manuaalinen tietojen etsiminen ilman alustavia hypoteeseja siitä, mitä tämä tieto voi olla. Tietojen louhinta määritellään myös prosessiksi tietyn tietomäärän (yleensä suuri määrä) analysoimiseksi loogisen suhteen löytämiseksi, joka tiivistää tiedot uudella tavalla, joka on ymmärrettävää ja hyödyllistä tiedon omistajalle . ”Malleja” kutsutaan suhteiksi ja datan louhinnasta saatuihin yhteenvetotietoihin. Tietojen louhinta käsittelee yleensä tietoja, jotka on saatu muuhun tarkoitukseen kuin tiedon louhintaan (esimerkiksi pankkitapahtumien tietokanta), mikä tarkoittaa, että tiedot eivät vaikuta itse tietojen keruutapaan. Tämä on yksi alueista, jolla datan louhinta eroaa tilastoista, ja tästä syystä tiedon louhintaprosessia kutsutaan toissijaiseksi tilastolliseksi prosessiksi. Määritelmä osoittaa myös, että datan määrä on yleensä suuri, mutta jos datan määrä on pieni, on parasta käyttää sitä säännöllisten tilastollisten menetelmien avulla.
Käsitellessään suurta tietomäärää syntyy uusia ongelmia, kuten miten tunnistaa tietyt kohdat tiedossa, miten tietoja voidaan analysoida kohtuullisessa ajassa ja miten päättää, heijastuvatko ilmeiset suhteet tosiasioita tietojen luonteessa. . Yleensä tiedot poistetaan, joka on osa tietojoukkoa, ja tavoitteena on yleensä yleistää tulokset kaikkiin tietoihin (esimerkiksi tuotteen kuluttajien nykyisten tietojen analysointi tulevien tarpeiden ennakoimiseksi) kuluttajat). Yksi tiedon louhinnan tavoitteista on myös pienentää tai pakata suuria määriä dataa yksinkertaisen datan ilmaisemiseksi ilman yleistämistä.