Regresioni linear i shumëfishtë është një metodë statistikore e përdorur për të modeluar marrëdhënien midis një variabli të varur dhe dy ose më shumë variablave të pavarura duke përshtatur një ekuacion linear në të dhënat e vëzhguara. Regresioni linear i shumëfishtë shpjegon se si disa parashikues ndikojnë njëkohësisht në një variabël rezultati.
Komponentët kryesorë të regresionit linear të shumëfishtë:
- Variabli i varur (Y): Ky është variabli që duam të parashikojmë. Shpesh quhet edhe "variabël objektiv" ose "përgjigje".
- Variablat e pavarur (X1, X2, ..., Xn): Këto janë variablat që përdorim për të parashikuar variablin e varur. Ato shpesh quhen edhe "parashikues" ose "variabël shpjegues".
- Modeli i regresionit: Ekuacioni i regresionit linear të shumëfishtë ka formën e mëposhtme:
Y = beta_0 + beta_01* X1 + beta_2*X2 + ... + beta_n* Xn
ku:
Y është variabli i varur. X1, X2, ..., Xn janë variablat e pavarura.
beta_0 është konstantja (prerja). beta_1, beta_2, ..., beta_n janë koeficientët e regresionit që tregojnë ndikimin e variablave përkatëse të pavarura në variablin e varur.
Zbatimet: - Ekonomi (parashikimi i të ardhurave); - Kujdesi shëndetësor (analiza e faktorëve të rrezikut); - Inxhinieri; - Shkencat sociale; - Parashikimi i biznesit.
Shembull: Parashikimi i çmimit të shtëpisë bazuar në: - Madhësinë e shtëpisë; - Numrin e dhomave të gjumit; - Mosha e shtëpisë
Në aplikacion, çdo objekt Object_k (object_1, object_2 ... object_m) përshkruhet nga variablat e pavarura (Xki - karakteristikat, i = 1...n) dhe një variabël e varur (Yk - objektiv). Një metodë si metoda e zakonshme e katrorëve më të vegjël (OLS) përdoret për të llogaritur vlerat optimale të koeficientëve (beta_0, beta_1, beta_2, ..., beta_n). Vlera e objektivit llogaritet nga:
Y = beta_0 + beta_01* P1 + beta_2 *P2 + ... + beta_n* Pn
ku: P1, P2...Pn janë parashikues të objektivit.
Aplikacioni ruan të dhëna për modele të shumëfishta regresioni në bazën e të dhënave (DB) të tipit SQLite të quajtur AppMultipleLinearRegresion.db. Modelet e regresionit dallohen sipas emrit.
Ekrani i fillimit të aplikacionit (App Multiple Linear Regression Solver) shfaq një listë të mostrave të modeleve të regresionit (në listën rrotulluese) dhe butona për aktivizimin e funksioneve për të krijuar (Mostër e re), ngarkuar (Ngarko), ruajtur (Ruaj), ruajtur si (Ruaj si), llogaritur (Llogarit) dhe fshirë (Fshij) mostrat e modeleve të regresionit. Nga ekrani kryesor, nëpërmjet elementëve të menusë, mund të qaseni gjithashtu në funksione të tilla si zgjedhja e gjuhës, ruajtja dhe kopjimi i bazës së të dhënave, inicializimi i bazës së të dhënave me të dhëna mostre dhe funksione ndihmëse të tilla si ndihma për aplikacionin, cilësimet dhe një lidhje me faqen e internetit me një përshkrim të të gjitha aplikacioneve nga autorët.
Funksionet për krijimin (Mostër e re) përfshijnë dialogun për futjen e madhësisë së matricës ku futja e të dhënave të mostrës së re - numri i rreshtave (numri i rreshtit përfshirë për të dhënat e parashikuara P1, P2...Pn - rreshti i fundit) dhe numri i kolonave (numri i kolonës përfshirë për të dhënat e varura Y1, Y2,...Yk - kolona e fundit). Pastaj gjenerohet një tabelë për futjen e të dhënave përkatëse. Tabela e plotësuar duhet të emërtohet para se të ruhet. Funksioni Load (Ngarko) fshin tabelën.
Tabela e vjetër e ruajtur mund të shfaqet duke u zgjedhur nga lista rrotulluese. Tabela që shfaqet mund të llogaritet dhe zgjidhja shfaqet në dialogun App results (Results) (Rezultatet e Aplikacionit). Funksioni Print (Print) mund të ekzekutohet nga ky dialog në skedarin AppMultipleLinearRegressionSolver.txt. Aktiviteti Printo (Print) përfshin aktivitetin Ruaj Db/Ruaj skedarin duke zgjedhur dosjen ku duhet ruajtur skedari. Pas zgjedhjes së dosjes shfaqet butoni për ruajtje. Nga i njëjti aktivitet mund të shfaqet përmbajtja e skedarit të zgjedhur, për të riemërtuar skedarin ose dosjen, për të krijuar dosje të re dhe gjithashtu për të fshirë skedarin e zgjedhur.
Regresioni linear i shumëfishtë është një mjet i fuqishëm i analizës së të dhënave, por duhet të përdoret me kujdes dhe me një kuptim të kufizimeve të tij.
Disavantazhet: I ndjeshëm ndaj multikolinearitetit (korrelacion i fortë midis variablave të pavarura). Nuk kap gjithmonë marrëdhëniet jolineare. Kërkon validim të kujdesshëm dhe kontroll të supozimeve.