Regresión a la media:
- Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable)
- Pearson (su amigo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:
- Altura del hijo =85cm + 0,5 altura del padre (aprox)
- Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.
Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.
Relación entre dos variables cuantitativas: Una variable cuantitativa toma valores que son cuantificables, por ejemplo la talla de una persona, el peso, presión arterial, el sueldo que gana, los gastos que tiene, etc.
- Hipótesis de partida (H0): Las dos variables en estudio son independientes.
- Hipótesis alternativa(Ha): Las dos variables en estudio están relacionadas.
2.Estudio conjunto de dos variables.
A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra
- En cada fila tenemos los datos de un individuo.
- Cada columna representa los valores que toma una variable sobre los mismos.
- Los individuos no se muestran en ningún orden particular
Dichas observaciones pueden ser representadas en un diagrama de dispersión (scatterplot). En ellos, cada individuo es un punto cuyas coordenadas son los valores de las variables.Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.
Diagrama de dispersión o nube de puntos: En el eje X coloco la variable independiente que en este caso es la altura.
Relación entre variables:
Predicción de una variable en función de otra: En la recta tenemos una correlación positiva y parece que el peso aumenta con la altura.
Relación directa e inversa:
3.Regresión simple: Correlación y determinación
Se trata de estudiar la asociación lineal entre dos variables cuantitativas. Ejemplo: influencia de la edad en las cifras de Tensión arterial Sistólica.
- Regresión lineal simple: una sola variable independiente.
- Regresión lineal múltiple: más de una variable independiente.
En el caso de regresión lineal simple:
- Ecuación de la recta: y = a + bx (ej: TAS=a +b· edad)
- Pendiente de la recta → b
- Punto de intersección con el eje de coordenadas → a
- “b” expresa la cantidad de cambio que se produce en la variable dependiente por unidad de cambio de la variable independiente.
- “a” expresa cuál es el valor de la variable dependiente (eje y) cuando la independiente vale cero (eje x). Si x=0 → y= a
Modelos lineales determinista: la variable independiente determine el valor de la variable dependiente. Entonces para cada valor de la variable independiente sólo habría un valor de la dependiente. Yo no puedo decir que una persona cuando tenga 80 años va a tener “x” tensión, aunque el modelo me lo diga.
La recta no es un modelo lineal determinista, es probabilístico: para cada valor de la variable independiente existe una distribución de probabilidad de valores de la dependiente. Con una probabilidad entre 0 y 1. La recta a determinar es aquella con la menor distancia de cada punto a ella.
Hay dos tipos de coeficientes, se elige uno u otro dependiendo de si las variables siguen una distribución normal:
La recta no es un modelo lineal determinista, es probabilístico: para cada valor de la variable independiente existe una distribución de probabilidad de valores de la dependiente. Con una probabilidad entre 0 y 1. La recta a determinar es aquella con la menor distancia de cada punto a ella.
Hay dos tipos de coeficientes, se elige uno u otro dependiendo de si las variables siguen una distribución normal:
- Pearson: paramétrica, por lo que requiere que la distribución siga la normalidad. Si siguen ambas variables una normal cogemos a Pearson.
- Spearman: no paramétrica, por lo que requiere que se emplee cuando la distribución no siga una normalidad. Si tiene solo una variable que sigue una distribución normal o ninguna.
4.Análisis de correlación
El análisis de correlación se utiliza con el propósito de disponer de un indicador cuantitativo que permite sintetizar el grado de la asociación entre variables.
Coeficiente de Correlación r de Pearson (r), (Rxy): Es un coeficiente que mide el grado de la relación de dependencia que existe entre las variables (x,y), cuyos valores van desde -1, correspondiente a una correlación negativa perfecta, hasta 1, correspondiente a una correlación positiva perfecta.
La magnitud del Coeficiente de Correlación (r) indica cuan erca estés los puntos de la reta, tomando valores entre 1 y -1.
5.Coeficiente de correlación de Pearson
Y= B1 *x + B0 (Determinista)
Y= B1 *x + B0 + e1 (Probabilista)
Y sería la media de la variable dependiente en un grupo con el mismo valor de la variable independiente. Para construir un modelo de regresión lineal hace falta conocer: Punto de intersección con el eje de coordenadas=β0 y la Pendiente de la recta a = β1
No hay un modelo determinista: hay una nube de puntos y buscamos la recta que mejor explica el comportamiento de la variable dependiente en función de la variable independiente.
6. Coeficiente de correlación y determinación
Y= B1 *x + B0 + e1 (Probabilista)
Y sería la media de la variable dependiente en un grupo con el mismo valor de la variable independiente. Para construir un modelo de regresión lineal hace falta conocer: Punto de intersección con el eje de coordenadas=β0 y la Pendiente de la recta a = β1
No hay un modelo determinista: hay una nube de puntos y buscamos la recta que mejor explica el comportamiento de la variable dependiente en función de la variable independiente.
6. Coeficiente de correlación y determinación
- Coeficiente de correlación (Pearson y Spearman): Número adimensional (entre -1 y 1) que mide la fuerza y el sentido de la relación lineal entre dos variables.
- Coeficiente de determinación: número adimensional (entre 0 y 1) que da idea de la relación entre las variables relacionadas linealmente. Es r2
No hay comentarios:
Publicar un comentario