Regresión llinial

Exemplu d'una regresión llinial con una variable dependiente y una variable independiente.

En estadística la regresión llinial o axuste llinial ye un modelu matemáticu usáu p'averar la rellación de dependencia ente una variable dependiente Y, les variables independientes Xi y un términu aleatoriu ε. Esti modelu puede ser espresáu como:

onde:

: variable dependiente, esplicada o tornando.
: variables esplicatives, independientes o regresores.
: parámetros, miden la influencia que les variables esplicatives tienen sobre'l regrediendo.

onde ye la interseición o términu "constante", les son los parámetros respeutivos a cada variable independiente, y ye'l númberu de parámetros independientes a tener en cuenta na regresión. La regresión llinial pue ser oldeada cola regresión non llinial.

Historia

La primer forma de regresión llinial documentada foi'l métodu de los mínimos cuadraos que foi publicada por Legendre en 1805, Gauss publicó un trabayu onde desenvolvía de manera más fonda'l métodu de los mínimos cuadraos,[1] y n'ónde s'incluyía una versión del teorema de Gauss-Márkov.

El términu regresión utilizar por primer vegada nel estudiu de variables antropométriques: al comparar la estatura de padres y fíos, onde resultó que los fíos que los sos padres teníen una estatura bien cimera al valor mediu, tendíen a igualase a ésti, ente que aquellos que los sos padres yeren bien baxos tendíen a amenorgar la so diferencia al respeutive de la estatura media; esto ye, "tornaben" al permediu.[2] La constatación empírica d'esta propiedá viose reforzada más tarde cola xustificación teórica d'esi fenómenu.

El términu llinial emplegar pa estremalo del restu de téuniques de regresión, qu'empleguen modelos basaos en cualquier clase de función matemática. Los modelos lliniales son una esplicación simplificada de la realidá, muncho más axiloses y con un soporte teóricu muncho más estensu per parte de la matemática y la estadística.

Pero bien, como se dixo, puede usase el términu llinial pa estremar modelos basaos en cualquier clase d'aplicación.

El modelu de regresión llinial

El modelu llinial rellaciona la variable dependiente Y con K variables esplícites (k = 1,...K), o cualesquier tresformamientu d'éstes que xeneren un hiperplano de parámetros desconocíos:

(2)

onde ye la perturbación aleatoria que recueye toos aquellos factores de la realidá non controlables o observables y que por tanto acomuñar col azar, y ye la que confier al modelu'l so calter estocástico. Nel casu más senciellu, con una sola variable esplícita, el hiperplano ye una recta:

(3)

El problema de la regresión consiste n'escoyer unos valores determinaos pa los parámetros desconocíos , de cuenta que la ecuación quede dafechu especificada. Pa ello precisa un conxuntu d'observaciones. Nuna observación i-ésima (i= 1,... I) cualesquier, rexístrase'l comportamientu simultáneu de la variable dependiente y les variables esplícites (les perturbaciones aleatories supónense non observables).

(4)

Los valores escoyíos como estimadores de los parámetros , son los coeficientes de regresión ensin que pueda garantizase que coincida n con parámetros reales del procesu xenerador. Por tanto, en

(5)

Los valores son pela so parte estimaciones o errores de la perturbación aleatoria.

Hipótesis del modelu de regresión llinial clásicu

  1. Esperanza matemática nula: . Pa cada valor de X la perturbación va tomar distintos valores de forma aleatoria, pero nun va tomar sistemáticamente valores positivos o negativos, sinón que se supón va tomar dellos valores mayores que cero y otros menores que cero, de tala forma que'l so valor esperáu sía cero.
  2. Homocedasticidad: pa tou t. Tolos términos de la perturbación tienen la mesma varianza que ye desconocida. La dispersión de cada en redol al so valor esperáu ye siempres la mesma.
  3. Incorrelación o independencia: pa tou t,s con t distintu de s. Les covarianzas ente les distintes pertubaciones son nules, lo que quier dicir que nun tán correlacionadas. Esto implica que'l valor de la perturbación pa cualquier observación muestral nun vien influyíu polos valor de les perturbaciones correspondientes a otres observaciones muestrales.
  4. Regresores estocásticos.
  5. Independencia llinial. Nun esisten rellaciones lliniales exactes ente los regresores.
  6. . Suponemos que nun esisten errores d'especificación nel modelu, nin errores de midida nes variables esplicatives.
  7. Normalidá de les perturbaciones:

Supuestos del modelu de regresión llinial

Pa poder crear un modelu de regresión llinial ye necesariu que se cumpla colos siguientes supuestos:[3]

  1. Que la rellación ente les variables sía llinial.
  2. Que los errores na midida de les variables esplicatives sían independientes ente sigo.
  3. Que los errores tengan varianza constante. (Homocedasticidad)
  4. Que los errores tengan una esperanza matemática igual a cero (los errores d'una mesma magnitú y distintu signu son equiprobables).
  5. Que'l error total sía la suma de tolos errores.

Tipos de modelos de regresión llinial

Esisten distintos tipos de regresión llinial que se clasifiquen d'alcuerdu a los sos parámetros:

Regresión llinial simple

Namái se remana una variable independiente, polo que namái cunta con dos parámetros. Son de la forma:[4]

(6)

onde ye l'error acomuñáu a la midida del valor y siguen los supuestos de cuenta que (media cero, varianza constante ya igual a un y con ).

Dáu'l modelu de regresión simple anterior, si calcula la esperanza (valor esperáu) del valor Y, llógrase:[5]

(7)

Derivando al respeutive de y ya igualando a cero, llógrase:[5]

(9)

(10)

Llogrando dos ecuaciones denominaes ecuaciones normales que xeneren la siguiente solución pa dambos parámetros:[4]

(11)

(12)

La interpretación del parámetru mediu ye qu'una medría en Xi d'una unidá, Yi va amontar en

Regresión llinial múltiple

La regresión llinial dexa trabayar con una variable a nivel d'intervalu o razón. De la mesma manera, ye posible analizar la rellación ente dos o más variables al traviés d'ecuaciones, lo que se denomina regresión múltiple o regresión llinial múltiple.

Constantemente na práutica de la investigación estadística, atópense variables que de dalguna manera tán rellacionaes ente sigo, polo que ye posible qu'una de les variables puedan rellacionase matemáticamente en función d'otra o otres variables.

Remana delles variables independientes. Cuenta con dellos parámetros. Espresar de la forma:[6]

(13)

onde ye l'error acomuñáu a la midida del valor y siguen los supuestos de cuenta que (media cero, varianza constante ya igual a un y con ).

Rectes de regresión

Les rectes de regresión son les rectes que meyor s'afaen a la nube de puntos (o tamién llamáu diagrama de dispersión) xenerada por una distribución binomial. Matemáticamente, son posibles dos rectes de máximu axuste:[7]

  • La recta de regresión de Y sobre X:

(14)

  • La recta de regresión de X sobre Y:

(15)

La correlación ("r") de les rectes va determinar la calidá del axuste. Si r ye cercanu o igual a 1, l'axuste va ser bonu y les predicciones realizaes a partir del modelu llográu van ser bien fiables (el modelu llográu resulta verdaderamente representativu); si r ye cercanu o igual a 0, va tratar d'un axuste malu nel que les predicciones que se realicen a partir del modelu llográu nun van ser fiables (el modelu llográu nun resulta representativu de la realidá). Dambes rectes de regresión se intersecan nun puntu llamáu centru de gravedá de la distribución.

Aplicaciones de la regresión llinial

Llinies d'enclín

Unu llinia d'enclín representa un enclín nuna serie de datos llograos al traviés d'un llargu periodu. Esti tipu de llinies puede dicinos si un conxuntu de datos en particular (como por casu, el PIB, el preciu del petroleu o'l valor de les aiciones) aumentaron o decrementado nun determináu periodu.[8] Puede dibuxase una llinia d'enclín a güeyu fácilmente a partir d'un grupu de puntos, pero la so posición y pendiente calcular de manera más precisa utilizando téuniques estadístiques como les regresiones lliniales. Les llinies d'enclín son xeneralmente llinies rectes, anque delles variaciones utilicen polinomios de mayor grau dependiendo de la combadura deseyada na llinia.

Medicina

En medicina, les primeres evidencies rellacionando la mortalidá col fumar tabacu[9] vinieron d'estudios qu'utilizaben la regresión llinial. Los investigadores inclúin una gran cantidá de variables nel so analís de regresión nun esfuerciu por esaniciar factores que pudieren producir correlaciones espurias.

Nel casu del tabaquismu, los investigadores incluyeron el tao sociu-económicu p'asegurase que los efeutos de mortalidá por tabaquismu nun sían un efeutu de la so educación o posición económica. Sicasí, ye imposible incluyir toles variables posibles nun estudiu de regresión.[10][11] Nel exemplu del tabaquismu, un hipotéticu xen podría aumentar la mortalidá y aumentar la propensión a adquirir enfermedaes rellacionaes col consumu de tabacu. Por esta razón, na actualidá les pruebes controlaes aleatories son consideraes muncho más confiables que los analises de regresión.

Informática

Exemplu d'una rutina qu'utiliza una recta de regresión llinial pa proyeutar un valor futuru: Códigu escritu en PHP

<?php
//Llicencia: GNU/GPL
$xarray=array(1, 2, 3, 4, 5 ); //Dias
$yarray=array(5, 5, 5, 6.8, 9); //Porcentaxe de ejecucion
$pm=100; //Valor futuru $x2=0;

$y=0;
$x=0;
$xy=0;
$cantidá=count($xarray);
for($i=0;$i<$cantidá;$i++){
 //Tabla de datos
 print ($xarray[$i]." ---- ".$yarray[$i]."<br />");
 //Calculo de terminos
 $x2 += $xarray[$i]*$xarray[$i];
 $y += $yarray[$i];
 $x += $xarray[$i];
 $xy += $xarray[$i]*$yarray[$i];
}
//Coeficiente parcial de regresion
$b=($cantidá*$xy-$x*$y)/($cantidá*$x2-$x*$x);
//Calculo del intercepto $a=($y-$b*$x)/$cantidá;

//Recta tendencial
//y=a+bx
//Proyeccion en dias pa un 100% de la ejecucion:
if ($b!=0) $dias_proyeutaos=($pm-$a)/$b;
else $dias_proyeutaos=999999; //Infinitos
$dp=round($dias_proyeutaos,0);
if($dp<=$pm) print $dp."---> Remata antes de los $pm dias <br />";
if($dp >$pm) print $dp ."---> ALARMA: Nun remata antes de los $pm dias <br />";
?>

Ver tamién

  • Homoscedasticidad
  • Regresión loxística
  • Modelos de regresión múltiple postulaos y non postulaos
  • Regresión segmentada
  • Econometría
  • Mínimos cuadraos
  • Regularización de Tikhonov
  • Cuartetu de Anscombe
  • Capital Asset Pricing Model
  • Regresión simple

Referencies

  1. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  2. Introduction to linear regression Curvefit.com (n'inglés)
  3. "Analís de regresión llinial", Universidá Complutense de Madrid
  4. 4,0 4,1 "Fórmules", Probabilidá y Estadística. Cs. Básiques. O.D.B. Matemática. Universidá Teunolóxica Nacional, Facultá Rexonal Buenos Aires. Editorial CEIT-FRBA. (Códigu BM2BT2)
  5. 5,0 5,1 Modelu de regresión llinial simple. Archiváu 2009-06-02 en Wayback Machine EinsteinNet.
  6. Téuniques de regresión: Regresión Llinial Múltiple. Pértega Díaz, S., Pita Fernández, S. Unidá d'Epidemioloxía Clínica y Bioestadística. Complexu Hospitalariu de La Coruña (España)
  7. Apunte sobre Rectes de regresión. Ministeriu d'Educación y Ciencia. Gobiernu d'España.
  8. Usu de les llinies d'enclín, Paritech (n'inglés)
  9. Doll, R., Wheatley, K., Gray, R. et al. «Mortality in relation to smoking: 40 years' observations on male British doctors .» BMJ 1994;309:901-911 (8 d'ochobre).
  10. "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidá de California, San Francisco, California. (n'inglés)
  11. Regalado-Pineda, Justino; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García. «Efeutu del tabaquismu, los síntomes respiratorios y l'asma sobre la espirometría d'adultos de la Ciudá de Méxicu.»

Bibliografía

  • Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. Méxicu. ISBN 968-451-856-0.
  • Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. Méxicu. ISBN 970-686-457-1.
  • Walpole, Ronald E.; Raymond, H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Prentice-Hall Hispanoamericana, S.A. Méxicu. ISBN 970-17-0264-6.

Enllaces esternos