Нижче наведено практичний посібник з множинної (багатовимірної) бінарної логістичної регресії, тобто прогнозування бінарного результату (0/1) за кількома ознаками.
Біноміальна логістична регресія (зазвичай її називають просто логістичною регресією) – це статистичний метод, який використовується для моделювання зв'язку між однією або кількома незалежними змінними та бінарним (двокатегорійним) результатом.
Бінарна: ціль y∈{0,1}
Множинна (багатовимірна): більше однієї вхідної ознаки x_1, x_2, ..., x_n
Модель:
p(y=1∣x)=1/(1+e^{−z}), де z=w_0+w_1*x_1+⋯+w_n*x_n
а w_0, w_1...w_n – це ваги, обчислені за допомогою x_1, x_2, ..., x_n та помилок між y та прогнозами.
Замість прямого прогнозування значень, логістична регресія прогнозує логарифмічні шанси, використовуючи лінійну комбінацію предикторів z. Логарифмічні коефіцієнти потім перетворюються за допомогою логістичної (сигмоїдної) функції для отримання ймовірностей між 0 та 1.
Бінарна логістична регресія – це ймовірнісна модель класифікації, яка використовує сигмоїдну функцію для прогнозування ймовірності одного з двох результатів, що робить її широко використовуваною в статистиці, науці про дані та машинному навчанні для інтерпретованого прийняття бінарних рішень.
Параметри моделі оцінюються за допомогою оцінки максимальної правдоподібності (MLE). Порогове значення (зазвичай 0,5) використовується для класифікації результатів (якщо P ≥ 0,5 → клас 1; якщо P < 0,5 → клас 0).
Мультиноміальна логістична регресія – це статистичний метод машинного навчання, який використовується для моделювання зв'язку між набором незалежних змінних (предикторів) та категоріальною залежною змінною з більш ніж двома можливими результатами, де категорії не мають природного порядку.
Модель: Для класу k:
P(y=k∣x)=e^w_k⋅x / ∑e^w_j⋅x де j=1,2...K
Де: - x = вектор ознак
w_k = ваги для класу k
K = кількість класів
У додатку кожен об'єкт Object_k( object_1, object_2 ... object_m) описується незалежними змінними (X_ki – ознаки, i = 1...n) та однією залежною змінною (Y_k - ціль). Для обчислення оптимальних значень коефіцієнтів (beta_0, beta_1, beta_2, ..., beta_n) використовується метод звичайних найменших квадратів (OLS). Цільове значення розраховується за формулою:
Y = beta_0 + beta_01* P_1 + beta_2 *P_2 + ... + beta_n* P_n
де: P_1, P_2...P_n – предиктори цілі.
Програма зберігає дані для кількох моделей логістичної регресії в базі даних (БД) типу SQLite з назвою AppMultiNomialLogisticRegression.db. Моделі регресії розрізняються за назвами.
На початковому екрані програми (App Multinomial Linear Logistic Regression Solver) відображається список зразків моделей регресії (у списку, що обертається) та кнопки для активації функцій створення (New sample), завантаження (Load), збереження (Save), збереження як (Save as), обчислення (Calculate) та видалення (Delete) зразків моделей регресії. З головного екрана, через елементи меню, ви також можете отримати доступ до таких функцій, як вибір мови, збереження та копіювання бази даних, ініціалізація бази даних зразками даних, та допоміжних функцій, таких як довідка для програми, налаштування та посилання на веб-сайт з описом усіх програм від авторів.
Функції для створення (Нова вибірка) включають діалогове вікно для введення розміру матриці, де вводяться дані нової вибірки – кількість рядків (кількість включених рядків для прогнозованих даних P_1, P_2...P_n – останній рядок) та кількість стовпців (кількість включених стовпців для залежних даних Y_1, Y_2,...Y_k – останній стовпець). Потім генерується таблиця для введення відповідних даних. Заповнена таблиця повинна бути названа перед збереженням. Функція Load очищає таблицю.
Стара збережена таблиця може бути відображена шляхом вибору зі списку. Таблицю, що відображається, можна обчислити, і рішення з'явиться в діалоговому вікні App Results. Функцію Print можна виконати з цього діалогового вікна у файлі AppMultipleLogisticRegressionSolver.txt. Дія Print включає дію Save Db/Save file, за допомогою якої вибирається папка для збереження файлу. Після вибору папки з'являється кнопка для збереження. У цій же дії може бути відображено вміст вибраного файлу, а також можливість видалення вибраного файлу.