ด้านล่างนี้คือคู่มือเชิงปฏิบัติสำหรับการถดถอยโลจิสติกแบบไบนารีหลายตัวแปร (multivariate Binary Logistic Regression) —นั่นคือ การทำนายผลลัพธ์แบบไบนารี (0/1) จากคุณลักษณะหลายตัว
การถดถอยโลจิสติกแบบไบนารี (โดยทั่วไปเรียกว่าการถดถอยโลจิสติก) เป็นวิธีการทางสถิติที่ใช้ในการสร้างแบบจำลองความสัมพันธ์ระหว่างตัวแปรอิสระหนึ่งตัวหรือมากกว่ากับผลลัพธ์แบบไบนารี (สองหมวดหมู่)
ไบนารี: เป้าหมาย y∈{0,1}
หลายตัวแปร (multivariate): คุณลักษณะอินพุตมากกว่าหนึ่งตัว x_1, x_2, ..., x_n
แบบจำลอง:
p(y=1∣x)=1/(1+e^{−z}) โดยที่ z=w_0+w_1*x_1+⋯+w_n*x_n
และ w_0, w_1...w_n คือน้ำหนักที่คำนวณโดย x_1, x_2, ..., x_n และข้อผิดพลาดระหว่าง y กับค่าที่ทำนายได้
แทนที่จะทำนายค่าโดยตรง การถดถอยโลจิสติกจะทำนายค่าลอการิทึมของอัตราต่อรองโดยใช้การรวมเชิงเส้นของตัวทำนาย z จากนั้นค่าลอการิทึมของอัตราต่อรองจะถูกแปลงโดยใช้ฟังก์ชันโลจิสติก (ซิกมอยด์) เพื่อสร้างค่าความน่าจะเป็นระหว่าง 0 ถึง 1
การถดถอยโลจิสติกแบบไบนารีเป็นแบบจำลองการจำแนกประเภทเชิงความน่าจะเป็นที่ใช้ฟังก์ชันซิกมอยด์เพื่อทำนายความน่าจะเป็นของผลลัพธ์หนึ่งในสองผลลัพธ์ ทำให้มีการใช้งานอย่างแพร่หลายในสถิติ วิทยาศาสตร์ข้อมูล และการเรียนรู้ของเครื่องสำหรับการตัดสินใจแบบไบนารีที่ตีความได้
พารามิเตอร์ของแบบจำลองจะถูกประมาณโดยใช้การประมาณค่าความน่าจะเป็นสูงสุด (MLE) ค่าเกณฑ์ (โดยปกติคือ 0.5) จะใช้ในการจำแนกผลลัพธ์ (ถ้า P≥0.5 → คลาส 1; ถ้า P<0.5 → คลาส 0)
การถดถอยโลจิสติกแบบหลายตัวเลือกเป็นวิธีการทางสถิติและการเรียนรู้ของเครื่องที่ใช้ในการสร้างแบบจำลองความสัมพันธ์ระหว่างชุดของตัวแปรอิสระ (ตัวทำนาย) และตัวแปรตามเชิงหมวดหมู่ที่มีผลลัพธ์ที่เป็นไปได้มากกว่าสองอย่าง โดยที่หมวดหมู่ไม่มีลำดับตามธรรมชาติ
แบบจำลอง: สำหรับคลาส k:
P(y=k∣x)=e^w_k⋅x / ∑e^w_j⋅x โดยที่ j=1,2...K
โดยที่: - x = เวกเตอร์คุณลักษณะ
w_k = น้ำหนักสำหรับคลาส k
K = จำนวนคลาส
ในแอปพลิเคชัน วัตถุแต่ละชิ้น Object_k (object_1, object_2 ... object_m) จะถูกอธิบายด้วยตัวแปรอิสระ (X_ki – คุณลักษณะ, i = 1...n) และตัวแปรตามหนึ่งตัว (Y_k - เป้าหมาย) วิธีการเช่นกำลังสองน้อยที่สุดแบบธรรมดา (OLS) ถูกใช้เพื่อคำนวณค่าที่เหมาะสมที่สุดของสัมประสิทธิ์ (beta_0, beta_1, beta_2, ..., beta_n) ค่าเป้าหมายคำนวณโดย:
Y = beta_0 + beta_01* P_1 + beta_2 *P_2 + ... + beta_n* P_n
โดยที่: P_1, P_2...P_n คือตัวทำนายของเป้าหมาย
แอปพลิเคชันจะบันทึกข้อมูลสำหรับแบบจำลองการถดถอยโลจิสติกหลายแบบลงในฐานข้อมูล (DB) ประเภท SQLite ที่ชื่อ AppMultiNomialLogisticRegression.db โดยแบบจำลองการถดถอยแต่ละแบบจะถูกแยกแยะด้วยชื่อ
หน้าจอเริ่มต้นของแอปพลิเคชัน (App Multinomial Linear Logistic Regression Solver) จะแสดงรายการตัวอย่างของแบบจำลองการถดถอย (ในรายการแบบหมุน) และปุ่มสำหรับเปิดใช้งานฟังก์ชันต่างๆ เช่น การสร้าง (New sample), การโหลด (Load), การบันทึก (Save), การบันทึกเป็น (Save as), การคำนวณ (Calculate) และการลบ (Delete) ตัวอย่างของแบบจำลองการถดถอย จากหน้าจอหลัก คุณยังสามารถเข้าถึงฟังก์ชันต่างๆ ผ่านองค์ประกอบเมนู เช่น การเลือกภาษา การบันทึกและคัดลอกฐานข้อมูล การเริ่มต้นฐานข้อมูลด้วยข้อมูลตัวอย่าง และฟังก์ชันเสริมต่างๆ เช่น ความช่วยเหลือสำหรับแอปพลิเคชัน การตั้งค่า และลิงก์ไปยังเว็บไซต์ที่มีคำอธิบายแอปพลิเคชันทั้งหมดโดยผู้เขียน
ฟังก์ชันสำหรับการสร้าง (ตัวอย่างใหม่) ประกอบด้วยกล่องโต้ตอบสำหรับป้อนขนาดของเมทริกซ์ โดยจะป้อนข้อมูลของตัวอย่างใหม่ – จำนวนแถว (จำนวนแถวรวมแถวสำหรับข้อมูลที่คาดการณ์ P_1, P_2...P_n – แถวสุดท้าย) และจำนวนคอลัมน์ (จำนวนคอลัมน์รวมคอลัมน์สำหรับข้อมูลตัวแปรตาม Y_1, Y_2,...Y_k – คอลัมน์สุดท้าย) จากนั้นจะสร้างตารางสำหรับป้อนข้อมูลที่เกี่ยวข้อง ตารางที่กรอกข้อมูลแล้วจะต้องตั้งชื่อก่อนบันทึก ฟังก์ชัน Load จะล้างตาราง
ตารางที่บันทึกไว้ก่อนหน้านี้อาจแสดงขึ้นโดยเลือกจากรายการสปินเนอร์ ตารางที่แสดงอาจคำนวณแล้ว และผลลัพธ์จะปรากฏในกล่องโต้ตอบผลลัพธ์ของแอป ฟังก์ชัน Print สามารถเรียกใช้จากกล่องโต้ตอบนี้เพื่อบันทึกไฟล์ AppMultipleLogisticRegressionSolver.txt ฟังก์ชัน Print ประกอบด้วยกิจกรรม Save Db/Save file โดยจะเลือกโฟลเดอร์ที่จะบันทึกไฟล์ หลังจากเลือกโฟลเดอร์แล้วจะมีปุ่มบันทึกปรากฏขึ้น จากกิจกรรมเดียวกันนี้ อาจแสดงเนื้อหาของไฟล์ที่เลือก และยังสามารถลบไฟล์ที่เลือกได้อีกด้วย