Alla on käytännön opas monimuuttujaiseen (monimuuttujaiseen) binääriseen logistiseen regressioon – eli binäärisen lopputuloksen (0/1) ennustamiseen useiden ominaisuuksien perusteella.
Binomiaalinen logistinen regressio (yleensä logistinen regressio) on tilastollinen menetelmä, jota käytetään mallintamaan yhden tai useamman riippumattoman muuttujan ja binäärisen (kaksiluokkaisen) lopputuloksen välistä suhdetta.
Binäärinen: kohde y∈{0,1}
Monimuuttuja (monimuuttuja): useampi kuin yksi syöteominaisuus x_1, x_2, ..., x_n
Malli:
p(y=1∣x)=1/(1+e^{−z}), jossa z=w_0+w_1*x_1+⋯+w_n*x_n
ja w_0, w_1...w_n ovat painotuksia, jotka lasketaan x_1:n, x_2:n, ..., x_n:n avulla, sekä virheitä y:n ja ennusteiden välillä.
Sen sijaan, että logistinen regressio ennustaisi arvoja suoraan, se ennustaa log-kertoimia käyttämällä ennustajien z lineaarista yhdistelmää. Log-oddsit muunnetaan sitten logistisella (sigmoidi) funktiolla, jolloin saadaan todennäköisyydet välillä 0 ja 1.
Binäärinen logistinen regressio on probabilistinen luokittelumalli, joka käyttää sigmoidifunktiota ennustaakseen yhden kahdesta lopputuloksesta todennäköisyyden. Siksi sitä käytetään laajalti tilastotieteessä, datatieteessä ja koneoppimisessa tulkittavaan binääriseen päätöksentekoon.
Malliparametrit estimoidaan käyttämällä maksimitodennäköisyyden estimaatiota (MLE). Kynnysarvoa (yleensä 0,5) käytetään tulosten luokittelemiseen (jos P≥0,5 → luokka 1; jos P<0,5 → luokka 0).
Monnomiaalinen logistinen regressio on tilastollinen ja koneoppimiseen perustuva menetelmä, jota käytetään mallintamaan joukon riippumattomia muuttujia (ennustavia tekijöitä) ja kategorisen riippuvan muuttujan välistä suhdetta, kun mahdollista lopputulosta on enemmän kuin kaksi, kun luokilla ei ole luonnollista järjestystä.
Malli: Luokalle k:
P(y=k∣x)=e^w_k⋅x / ∑e^w_j⋅x, missä j=1,2...K
Missä: - x = ominaisuusvektori
w_k = luokan k painot
K = luokkien lukumäärä
Sovelluksessa kutakin objektia Object_k(objekti_1, objekti_2 ... objekti_m) kuvataan riippumattomilla muuttujilla (X_ki – ominaisuudet, i = 1...n) ja yhdellä riippuvalla muuttujalla (Y_k - kohde). Kertoimien (beta_0, beta_1, beta_2, ..., beta_n) optimaalisten arvojen laskemiseen käytetään menetelmää, kuten tavallisten pienimpien neliöiden menetelmää (OLS). Tavoitearvo lasketaan seuraavasti:
Y = beta_0 + beta_01* P_1 + beta_2 *P_2 + ... + beta_n* P_n
missä: P_1, P_2...P_n ovat kohteen ennustajia. Sovellus tallentaa useiden logististen regressiomallien tiedot SQLite-tyyppiseen tietokantaan (DB) nimeltä AppMultiNomialLogisticRegression.db. Regressiomallit erotetaan toisistaan nimen mukaan.
Sovelluksen (App Multinomial Linear Logistic Regression Solver) aloitusnäytössä näkyy luettelo regressiomallien esimerkeistä (selausluettelossa) ja painikkeet, joilla voi ottaa käyttöön toiminnot regressiomallien esimerkkien luomiseksi (New sample), lataamiseksi (Load), tallentamiseksi (Save), tallentamiseksi nimellä (Save as), laskemiseksi (Calculate) ja poistamiseksi (Delete). Päänäytöltä valikkoelementtien kautta voi käyttää myös toimintoja, kuten kielen valintaa, tietokannan tallentamista ja kopioimista, tietokannan alustamista esimerkkitiedoilla sekä aputoimintoja, kuten sovelluksen ohjetta, asetuksia ja linkkiä verkkosivustolle, jossa on tekijöiden kuvaus kaikista sovelluksista.
Luontifunktiot (Uusi otos) sisältävät valintaikkunan matriisin koon syöttämiseen, johon syötetään uuden otoksen tiedot – rivien lukumäärä (ennustetun datan rivien lukumäärä P_1, P_2...P_n – viimeinen rivi) ja sarakkeiden lukumäärä (riippuvan datan sarakkeiden lukumäärä Y_1, Y_2,...Y_k – viimeinen sarake). Sitten luodaan taulukko asiaankuuluvien tietojen syöttämistä varten. Täytetty taulukko on nimettävä ennen tallentamista. Tyhjennä taulukko -funktiolla voi ladata ja tyhjentää taulukon.
Vanha tallennettu taulukko voidaan näyttää valitsemalla se spinner-luettelosta. Näytettävä taulukko voidaan laskea ja ratkaisut näkyvät sovellustulosten valintaikkunassa. Tulosta-funktio voidaan suorittaa tästä valintaikkunasta tiedostoon AppMultipleLogisticRegressionSolver.txt. Tulosta-toiminnolla voi tallentaa tietokannan/tallenna tiedoston ja valita kansion, johon tiedosto tallennetaan. Kansion valinnan jälkeen näkyviin tulee tallennuspainike. Samasta toiminnosta voidaan näyttää valitun tiedoston sisältö ja myös poistaa valittu tiedosto.