Hieronder volgt een praktische handleiding voor meervoudige (multivariate) binaire logistische regressie — oftewel het voorspellen van een binaire uitkomst (0/1) op basis van meerdere kenmerken.
Binomale logistische regressie (meestal kortweg logistische regressie genoemd) is een statistische methode die wordt gebruikt om de relatie tussen een of meer onafhankelijke variabelen en een binaire (twee-categorieën) uitkomst te modelleren.
Binair: doelvariabele y∈{0,1}
Meervoudig (multivariate): meer dan één invoerkenmerk x_1, x_2, ..., x_n
Model:
p(y=1∣x)=1/(1+e^{−z}), waarbij z=w_0+w_1*x_1+⋯+w_n*x_n
en w_0, w_1...w_n gewichten zijn die worden berekend op basis van x_1, x_2, ..., x_n en fouten tussen y en de voorspelde waarden.
In plaats van waarden direct te voorspellen, voorspelt logistische regressie log-odds met behulp van een lineaire combinatie van voorspellende variabelen z. De log-odds worden vervolgens getransformeerd met behulp van de logistische (sigmoid) functie om waarschijnlijkheden tussen 0 en 1 te produceren.
Binaire logistische regressie is een probabilistisch classificatiemodel dat de sigmoidfunctie gebruikt om de waarschijnlijkheid van een van twee uitkomsten te voorspellen. Het wordt daarom veel gebruikt in de statistiek, data science en machine learning voor interpreteerbare binaire besluitvorming.
Modelparameters worden geschat met behulp van Maximum Likelihood Estimation (MLE). Een drempelwaarde (meestal 0,5) wordt gebruikt om uitkomsten te classificeren (als P≥0,5 → klasse 1; als P<0,5 → klasse 0).
Multinominale logistische regressie is een statistische en machine learning-methode die wordt gebruikt om de relatie te modelleren tussen een reeks onafhankelijke variabelen (voorspellende variabelen) en een categorische afhankelijke variabele met meer dan twee mogelijke uitkomsten, waarbij de categorieën geen natuurlijke ordening hebben.
Model: Voor klasse k:
P(y=k∣x)=e^w_k⋅x / ∑e^w_j⋅x waarbij j=1,2...K
Waarbij: - x = kenmerkenvector
w_k = gewichten voor klasse k
K = aantal klassen
In de app wordt elk object Object_k (object_1, object_2 ... object_m) beschreven door onafhankelijke variabelen (X_ki – kenmerken, i = 1...n) en één afhankelijke variabele (Y_k - doelwaarde). Een methode zoals gewone kleinste kwadraten (OLS) wordt gebruikt om de optimale waarden van de coëfficiënten (beta_0, beta_1, beta_2, ..., beta_n) te berekenen. De doelwaarde wordt berekend door:
Y = beta_0 + beta_01* P_1 + beta_2 *P_2 + ... + beta_n* P_n
waarbij: P_1, P_2...P_n voorspellers van de doelwaarde zijn.
De applicatie slaat gegevens voor meerdere logistische regressiemodellen op in een SQLite-database met de naam AppMultiNomialLogisticRegression.db. De regressiemodellen worden onderscheiden door hun naam.
Het opstartscherm van de applicatie (App Multinomial Linear Logistic Regression Solver) toont een lijst met voorbeelden van regressiemodellen (in een spinnerlijst) en knoppen om functies te activeren voor het aanmaken (Nieuw voorbeeld), laden (Laden), opslaan (Opslaan), opslaan als (Opslaan als), berekenen (Berekenen) en verwijderen (Verwijderen) van voorbeelden van regressiemodellen. Vanuit het hoofdscherm kunt u via de menu-elementen ook functies openen zoals taalselectie, het opslaan en kopiëren van de database, het initialiseren van de database met voorbeeldgegevens en hulpfuncties zoals help voor de applicatie, instellingen en een link naar de website met een beschrijving van alle applicaties door de auteurs.
De functies voor het aanmaken van een nieuw voorbeeld omvatten een dialoogvenster voor het invoeren van de grootte van de matrix waarin de gegevens van het nieuwe voorbeeld worden ingevoerd: het aantal rijen (inclusief de rijen voor de voorspellende gegevens P_1, P_2...P_n – de laatste rij) en het aantal kolommen (inclusief de kolommen voor de afhankelijke gegevens Y_1, Y_2,...Y_k – de laatste kolom). Vervolgens wordt een tabel gegenereerd voor het invoeren van de relevante gegevens. De gevulde tabel moet een naam krijgen voordat deze wordt opgeslagen. De functie 'Load' wist de tabel.
De eerder opgeslagen tabel kan worden weergegeven door deze te selecteren in de spinnerlijst. De weergegeven tabel kan worden berekend en de oplossing verschijnt in het dialoogvenster 'App-resultaten'. De functie 'Print' kan vanuit dit dialoogvenster worden uitgevoerd naar het bestand AppMultipleLogisticRegressionSolver.txt. De functie 'Print' omvat de activiteit 'Save Db/Save file' waarmee de map kan worden geselecteerd waar het bestand moet worden opgeslagen. Na het selecteren van een map verschijnt een knop om op te slaan. Vanuit dezelfde activiteit kan de inhoud van het geselecteerde bestand worden weergegeven en kan het geselecteerde bestand ook worden verwijderd.