Множинна лінійна регресія – це статистичний метод, який використовується для моделювання зв'язку між однією залежною змінною та двома або більше незалежними змінними шляхом підбору лінійного рівняння до спостережуваних даних. Множинна лінійна регресія пояснює, як кілька предикторів одночасно впливають на змінну результату.
Основні компоненти множинної лінійної регресії:
- Залежна змінна (Y): Це змінна, яку ми хочемо передбачити. Її також часто називають «цільовою змінною» або «відповіддю».
- Незалежні змінні (X1, X2, ..., Xn): Це змінні, які ми використовуємо для прогнозування залежної змінної. Їх також часто називають «предикторами» або «пояснювальними змінними».
- Модель регресії: Рівняння множинної лінійної регресії має такий вигляд:
Y = beta_0 + beta_01* X1 + beta_2*X2 + ... + beta_n* Xn
де:
Y – залежна змінна.
X1, X2, ..., Xn – незалежні змінні.
beta_0 – константа (перетин з віссю). beta_1,beta_2, ..., beta_n – це коефіцієнти регресії, що вказують на вплив відповідних незалежних змінних на залежну змінну.
Застосування: - Економіка (прогнозування доходів); - Охорона здоров'я (аналіз факторів ризику); - Інженерія; - Соціальні науки; - Бізнес-прогнозування.
Приклад: Прогнозування ціни на житло на основі: - Розміру будинку; - Кількість спалень; - Віку будинку
У додатку кожен об'єкт Object_k (object_1, object_2 ... object_m) описується незалежними змінними (Xki – характеристики, i = 1...n) та однією залежною змінною (Yk - ціль). Для розрахунку оптимальних значень коефіцієнтів (beta_0, beta_1, beta_2, ..., beta_n) використовується метод звичайних найменших квадратів (OLS). Цільове значення розраховується за формулою:
Y = beta_0 + beta_01* P1 + beta_2 *P2 + ... + beta_n* Pn
де: P1, P2...Pn – предиктори цільового значення.
Програма зберігає дані для кількох регресійних моделей у базі даних (БД) типу SQLite з назвою AppMultipleLinearRegression.db. Регресійні моделі розрізняються за назвами.
На початковому екрані програми (App Multiple Linear Regression Solver) відображається список зразків регресійних моделей (у списку, що обертається) та кнопки для активації функцій створення (New sample), завантаження (Load), збереження (Save), збереження як (Save as), обчислення (Calculate) та видалення (Delete) зразків регресійних моделей. З головного екрана, через елементи меню, ви також можете отримати доступ до таких функцій, як вибір мови, збереження та копіювання бази даних, ініціалізація бази даних зразками даних, та допоміжних функцій, таких як довідка для програми, налаштування та посилання на веб-сайт з описом усіх програм авторами.
Функції для створення (New sample) включають діалогове вікно для введення розміру матриці, де вводяться дані нової вибірки – кількість рядків (кількість рядків, що включаються, для прогнозованих даних P1, P2...Pn – останній рядок) та кількість стовпців (кількість стовпців, що включаються, для залежних даних Y1, Y2,...Yk – останній стовпець). Потім генерується таблиця для введення відповідних даних. Заповнена таблиця повинна бути названа перед збереженням. Функція Load очищує таблицю. Стара збережена таблиця може відображатися шляхом вибору зі списку. Таблицю, що відображається, можна обчислити, а рішення відобразиться в діалоговому вікні App Results. Функцію Print можна виконати з цього діалогового вікна у файлі AppMultipleLinearRegressionSolver.txt. Функція Print включає дію Save Db/Save file, в якій вибирається папка для збереження файлу. Після вибору папки з'являється кнопка для збереження. З цієї ж дії можна відобразити вміст вибраного файлу, перейменувати файл або папку, створити нову папку, а також видалити вибраний файл. Множинна лінійна регресія – це потужний інструмент аналізу даних, але його слід використовувати з обережністю та розумінням його обмежень. Недоліки: Чутливість до мультиколінеарності (сильна кореляція між незалежними змінними). Не завжди фіксує нелінійні зв'язки. Потребує ретельної перевірки та перевірки припущень.