Moninkertainen lineaarinen regressio on tilastollinen menetelmä, jota käytetään mallintamaan yhden riippuvan muuttujan ja kahden tai useamman riippumattoman muuttujan välistä suhdetta sovittamalla lineaarinen yhtälö havaittuun dataan. Moninkertainen lineaarinen regressio selittää, kuinka useat ennustavat muuttujat vaikuttavat samanaikaisesti tulosmuuttujaan.
Moninkertainen lineaarisen regression pääkomponentit:
- Riippuva muuttuja (Y): Tämä on muuttuja, jonka haluamme ennustaa. Sitä kutsutaan usein myös "kohdemuuttujaksi" tai "vasteeksi".
- Riippumattomat muuttujat (X1, X2, ..., Xn): Nämä ovat muuttujia, joita käytämme riippuvan muuttujan ennustamiseen. Niitä kutsutaan usein myös "ennustaviksi muuttujiksi" tai "selittäviksi muuttujiksi".
- Regressiomalli: Moninkertaisen lineaarisen regression yhtälöllä on seuraava muoto:
Y = beta_0 + beta_01* X1 + beta_2*X2 + ... + beta_n* Xn
jossa:
Y on riippuva muuttuja. X1, X2, ..., Xn ovat riippumattomat muuttujat.
beeta_0 on vakio (leikkauspiste). beta_1, beta_2, ..., beta_n ovat regressiokertoimia, jotka osoittavat vastaavien riippumattomien muuttujien vaikutuksen riippuvaan muuttujaan.
Sovellukset: - Taloustiede (tulojen ennustaminen); - Terveydenhuolto (riskitekijöiden analyysi); - Tekniikka; - Yhteiskuntatieteet; - Liiketoiminnan ennustaminen.
Esimerkki: Asuntojen hinnan ennustaminen seuraavien perusteella: - Talon koko; - Makuuhuoneiden lukumäärä; - Talon ikä
Sovelluksessa kutakin objektia Object_k(objekti_1, objekti_2 ... objekti_m) kuvataan riippumattomilla muuttujilla (Xki – ominaisuudet, i = 1...n) ja yhdellä riippuvalla muuttujalla (Yk - tavoite). Kertoimien (beta_0, beta_1, beta_2, ..., beta_n) optimaalisten arvojen laskemiseen käytetään menetelmää, kuten tavallisten pienimpien neliöiden menetelmää (OLS). Tavoitearvo lasketaan seuraavasti:
Y = beta_0 + beta_01* P1 + beta_2 *P2 + ... + beta_n* Pn
jossa: P1, P2...Pn ovat tavoitteen ennustajia.
Sovellus tallentaa useiden regressiomallien tiedot SQLite-tyyppiseen tietokantaan (DB) nimeltä AppMultipleLinearRegression.db. Regressiomallit erotetaan toisistaan nimen mukaan.
Sovelluksen (App Multiple Linear Regression Solver) aloitusnäytössä näkyy luettelo regressiomallien esimerkeistä (selausluettelossa) ja painikkeet, joilla voi ottaa käyttöön toiminnot regressiomallien näytteiden luomiseksi (New sample), lataamiseksi (Load), tallentamiseksi (Save), tallentamiseksi nimellä (Save as), laskemiseksi (Calculate) ja poistamiseksi (Delete). Päänäytöltä valikkoelementtien kautta voi käyttää myös toimintoja, kuten kielen valintaa, tietokannan tallentamista ja kopioimista, tietokannan alustamista esimerkkitiedoilla sekä aputoimintoja, kuten sovelluksen ohjetta, asetuksia ja linkkiä verkkosivustolle, jossa on kuvaus kaikista sovelluksista tekijöiden toimesta.
Uuden näytteen luomiseen tarkoitetut toiminnot sisältävät valintaikkunan matriisin koon syöttämiseksi, johon syötetään uuden näytteen tiedot – rivien lukumäärä (sisällytettävien rivien lukumäärä ennustetuille tiedoille P1, P2...Pn – viimeinen rivi) ja sarakkeiden lukumäärä (sisällytettävien sarakkeiden lukumäärä riippuvaisille tiedoille Y1, Y2,...Yk – viimeinen sarake). Tämän jälkeen luodaan taulukko asiaankuuluvien tietojen syöttämistä varten. Täytetty taulukko on nimettävä ennen tallentamista. Tyhjennä taulukko -funktiolla voi näyttää vanhan tallennetun taulukon valitsemalla sen spinner-luettelosta. Näytettävä taulukko voidaan laskea ja ratkaisut näkyvät sovellustuloksiin. Tulosta-funktio voidaan suorittaa tästä valintaikkunasta tiedostoon AppMultipleLinearRegressionSolver.txt. Tulosta-toiminto sisältää Tallenna tietokanta/Tallenna tiedosto -toiminnon, johon valitaan kansio, johon tiedosto tallennetaan. Kansion valinnan jälkeen näkyviin tulee tallennuspainike. Samasta toiminnosta voidaan näyttää valitun tiedoston sisältö, nimetä tiedosto tai kansio uudelleen, luoda uusi kansio ja myös poistaa valittu tiedosto.
Moninkertainen lineaarinen regressio on tehokas data-analyysityökalu, mutta sitä on käytettävä varoen ja sen rajoitukset on ymmärrettävä.
Haitat: Herkkä multikollineaarisuudelle (vahva korrelaatio riippumattomien muuttujien välillä). Ei aina kuvaa epälineaarisia suhteita. Vaatii huolellista oletusten validointia ja tarkistamista.