La regresión lineal múltiple es un método estadístico que se utiliza para modelar la relación entre una variable dependiente y dos o más variables independientes mediante el ajuste de una ecuación lineal a los datos observados. La regresión lineal múltiple explica cómo varios predictores afectan simultáneamente a una variable de resultado.
Componentes principales de la regresión lineal múltiple:
- Variable dependiente (Y): Esta es la variable que queremos predecir. A menudo también se denomina "variable objetivo" o "variable de respuesta".
- Variables independientes (X1, X2, ..., Xn): Estas son las variables que utilizamos para predecir la variable dependiente. A menudo también se denominan "predictores" o "variables explicativas".
- Modelo de regresión: La ecuación de la regresión lineal múltiple tiene la siguiente forma:
Y = beta_0 + beta_01*X1 + beta_2*X2 + ... + beta_n*Xn
donde:
Y es la variable dependiente. X1, X2, ..., Xn son las variables independientes.
beta_0 es la constante (ordenada al origen). Beta_1, Beta_2, ..., Beta_n son los coeficientes de regresión que indican la influencia de las variables independientes correspondientes sobre la variable dependiente.
Aplicaciones: - Economía (predicción de ingresos); - Salud (análisis de factores de riesgo); - Ingeniería; - Ciencias sociales; - Pronóstico empresarial.
Ejemplo: Predicción del precio de la vivienda según: - Tamaño de la vivienda; - Número de dormitorios; - Antigüedad de la vivienda.
En la aplicación, cada objeto Object_k (objetivo_1, objeto_2 ... objeto_m) se describe mediante variables independientes (Xk = características, i = 1...n) y una variable dependiente (Yk = objetivo). Se utiliza un método como los mínimos cuadrados ordinarios (MCO) para calcular los valores óptimos de los coeficientes (beta_0, beta_1, beta_2, ..., beta_n). El valor objetivo se calcula mediante:
Y = beta_0 + beta_01* P1 + beta_2 *P2 + ... + beta_n* Pn
donde: P1, P2...Pn son predictores del objetivo.
La aplicación guarda los datos de los modelos de regresión múltiple en una base de datos SQLite llamada AppMultipleLinearRegression.db. Los modelos de regresión se distinguen por su nombre.
La pantalla de inicio de la aplicación (App Multiple Linear Regression Solver) muestra una lista de ejemplos de modelos de regresión (en una lista de control) y botones para habilitar las funciones de crear (Nueva muestra), cargar (Cargar), guardar (Guardar), guardar como (Guardar como), calcular (Calcular) y eliminar (Eliminar) ejemplos de modelos de regresión. Desde la pantalla principal, a través de los elementos del menú, también se puede acceder a funciones como la selección de idioma, guardar y copiar la base de datos, inicializar la base de datos con datos de muestra y funciones auxiliares como la ayuda de la aplicación, la configuración y un enlace al sitio web con una descripción de todas las aplicaciones por parte de los autores. Las funciones para crear (Nueva muestra) incluyen el cuadro de diálogo para ingresar el tamaño de la matriz, donde se introducen los datos de la nueva muestra: número de filas (el número de filas incluidas para los datos predichos P1, P2...Pn - última fila) y número de columnas (el número de columnas incluidas para los datos dependientes Y1, Y2...Yk - última columna). A continuación, se genera una tabla para ingresar los datos relevantes. La tabla completa debe nombrarse antes de guardarse. La función Cargar borra la tabla.
La tabla guardada anterior puede mostrarse al seleccionarla en la lista de control. La tabla mostrada puede calcularse y la solución aparece en el cuadro de diálogo Resultados de la aplicación. La función Imprimir puede ejecutarse desde este cuadro de diálogo en el archivo AppMultipleLinearRegressionSolver.txt. La actividad Imprimir incluye Guardar base de datos/Guardar archivo, que permite seleccionar la carpeta donde se guardará el archivo. Tras seleccionar la carpeta, aparece el botón para guardar. Desde la misma actividad, se puede mostrar el contenido del archivo seleccionado, renombrarlo o crear una nueva carpeta, o eliminarlo.
La regresión lineal múltiple es una potente herramienta de análisis de datos, pero debe utilizarse con precaución y teniendo en cuenta sus limitaciones. Desventajas: Sensible a la multicolinealidad (fuerte correlación entre variables independientes). No siempre captura relaciones no lineales. Requiere una validación y comprobación cuidadosas de los supuestos.