در زیر یک راهنمای عملی برای رگرسیون لجستیک دودویی چندگانه (چند متغیره) آمده است - یعنی پیشبینی یک نتیجه دودویی (0/1) از چندین ویژگی.
رگرسیون لجستیک دودویی (که معمولاً فقط رگرسیون لجستیک نامیده میشود) یک روش آماری است که برای مدلسازی رابطه بین یک یا چند متغیر مستقل و یک نتیجه دودویی (دو دستهای) استفاده میشود.
دودویی: هدف y∈{0,1}
چند متغیره (چند متغیره): بیش از یک ویژگی ورودی x_1، x_2، ...، x_n
مدل:
p(y=1∣x)=1/(1+e^{-z})، که در آن z=w_0+w_1*x_1+⋯+w_n*x_n
و w_0، w_1...w_n وزنهایی هستند که توسط x_1، x_2، ...، x_n محاسبه میشوند و خطاهای بین y و پیشبینیها هستند. رگرسیون لجستیک به جای پیشبینی مستقیم مقادیر، با استفاده از ترکیب خطی پیشبینیکنندههای z، ضرایب لگاریتمی را پیشبینی میکند. سپس ضرایب لگاریتمی با استفاده از تابع لجستیک (سیگموئید) تبدیل میشوند تا احتمالاتی بین 0 و 1 تولید کنند.
رگرسیون لجستیک دودویی یک مدل طبقهبندی احتمالی است که از تابع سیگموئید برای پیشبینی احتمال یکی از دو نتیجه استفاده میکند و آن را به طور گسترده در آمار، علوم داده و یادگیری ماشین برای تصمیمگیری دودویی قابل تفسیر استفاده میکند.
پارامترهای مدل با استفاده از تخمین حداکثر درستنمایی (MLE) تخمین زده میشوند. از یک مقدار آستانه (معمولاً 0.5) برای طبقهبندی نتایج استفاده میشود (اگر P≥0.5 → کلاس 1 باشد؛ اگر P<0.5 → کلاس 0 باشد).
رگرسیون لجستیک چندجملهای یک روش آماری و یادگیری ماشینی است که برای مدلسازی رابطه بین مجموعهای از متغیرهای مستقل (پیشبینیکنندهها) و یک متغیر وابسته طبقهبندیشده با بیش از دو نتیجه ممکن، که در آن دستهها هیچ ترتیب طبیعی ندارند، استفاده میشود. مدل: برای کلاس k:
P(y=k∣x)=e^w_k⋅x / ∑e^w_j⋅x که در آن j=1,2...K
که در آن: - x = بردار ویژگی
w_k = وزنها برای کلاس k
K = تعداد کلاسها
در برنامه، هر شیء Object_k(object_1, object_2 ... object_m) توسط متغیرهای مستقل (X_ki - ویژگیها، i = 1...n) و یک متغیر وابسته (Y_k -target) توصیف میشوند. روشی مانند حداقل مربعات معمولی (OLS) برای محاسبه مقادیر بهینه ضرایب (beta_0، beta_1، beta_2، ...، beta_n) استفاده میشود. مقدار هدف با فرمول زیر محاسبه میشود:
Y = beta_0 + beta_01* P_1 + beta_2 *P_2 + ... + beta_n* P_n
که در آن: P_1، P_2...P_n پیشبینیکنندههای هدف هستند.
این برنامه، دادههای مربوط به مدلهای رگرسیون لجستیک چندگانه را در پایگاه داده (DB) از نوع SQLite به نام AppMultiNomialLogisticRegression.db ذخیره میکند. مدلهای رگرسیون بر اساس نام از هم متمایز میشوند.
صفحه شروع برنامه (App Multinomial Linear Logistic Regression Solver) فهرستی از نمونههای مدلهای رگرسیون (در فهرست چرخان) و دکمههایی برای فعال کردن توابع ایجاد (نمونه جدید)، بارگذاری (Load)، ذخیره (Save)، ذخیره به عنوان (Save as)، محاسبه (Calculate) و حذف (Delete) نمونههای مدلهای رگرسیون را نمایش میدهد. از صفحه اصلی، از طریق عناصر منو، میتوانید به توابعی مانند انتخاب زبان، ذخیره و کپی کردن پایگاه داده، مقداردهی اولیه پایگاه داده با دادههای نمونه و توابع کمکی مانند کمک برای برنامه، تنظیمات و پیوندی به وبسایت با توضیحات همه برنامهها توسط نویسندگان دسترسی داشته باشید.
توابع ایجاد (نمونه جدید) شامل کادر محاورهای برای وارد کردن اندازه ماتریس است که در آن دادههای نمونه جدید - تعداد سطرها (تعداد سطر شامل دادههای پیشبینیشده P_1، P_2...P_n - آخرین سطر) و تعداد ستونها (تعداد ستون شامل دادههای وابسته Y_1، Y_2،...Y_k - آخرین ستون) - وارد میشوند. سپس جدولی برای وارد کردن دادههای مربوطه ایجاد میشود. جدول پر شده باید قبل از ذخیره نامگذاری شود. تابع Load جدول را پاک میکند.
جدول ذخیره شده قدیمی ممکن است با انتخاب از لیست چرخان نمایش داده شود. جدول نمایش داده شده ممکن است محاسبه شود و راهحل در کادر محاورهای App results ظاهر شود. تابع Print را میتوان از این کادر محاورهای در فایل AppMultipleLogisticRegressionSolver.txt اجرا کرد. فعالیت Print شامل ذخیره فایل Db/ذخیره فایل توسط پوشه انتخاب شده برای ذخیره فایل است. پس از انتخاب پوشه، دکمه ذخیره ظاهر میشود. از همان فعالیت، ممکن است محتوای فایل انتخاب شده و همچنین حذف فایل انتخاب شده نمایش داده شود.
تاریخ بهروزرسانی
۱۵ اسفند ۱۴۰۴