jueves, 11 de abril de 2019

Ejercicios Tema 7








Ejercicios Tema 8



Tema 9: Introducción a la Inferencia Estadística

1.Inferencia estadística

      Se le denomina inferencia estadística al conjunto de procedimientos estadísticos que permiten pasar de lo particular, la muestra, a lo general, la población. Hay dos formas de inferencia estadística:
  • Estimación del valor en la población (Parámetro) a partir de un valor de la muestra (Estimador).  
  • Contraste de hipótesis, a partir de valores de la muestra, se concluye si hay diferencias entre ellos en la población.
De las dos formas de inferencia que acabamos de ver, empezamos por la primera: 
  • Pueden ser puntuales o a través de intervalos de confianza para aproximarnos a valor de un parámetro. Por ejemplo: estimar el peso promedio de la población usando el peso promedio de la muestra. 
  • Pruebas de hipótesis ¿el valor obtenido es diferente del valor especificado por H0? Por ejemplo: probar que el peso promedio de la población es de 65kg.
       Extraemos conclusiones y/o tomamos decisiones concernientes a una población basándose en los resultados de una muestra.

2.Estimaciones

      Proceso de utilizar información de una muestra para extraer conclusiones acerca de toda la población. Se utiliza la información recogida para estimar un valor. Puede realizarse una estimación puntual o estimación por intervalos mediante el cálculo de intervalos de confianza. 

        La estimación puntual es más precisa, pero tiene más riesgo de error. Si realizo una estimación por intervalos, tengo menos riesgo de error y menos precisión.

ESTIMACIÓN PUNTUAL: 
      Consiste en considerar al valor del estadístico muestral como una estimación del parámetro poblacional. Por ejemplo: si la tensión arterial sistólica de una muestra es de 125 mmHg, una estimación puntual es considerar este valor como una aproximación a la tensión arterial sistólica media poblacional.  Esto genera mucha incertidumbre y mucha imprecisión.
 
ESTIMACIÓN POR INTERVALOS:
        Es lo más aconsejable. Perdemos mucha precisión, pero a veces esa precisión nos compensa cuando tenemos una horquilla de valores. Consiste en calcular dos valores entre los cuales se encuentra el parámetro poblacional que queremos estimar con una probabilidad determinada, habitualmente el 95% de confianza. Por ejemplo: a partir de los datos de una muestra hemos calculado que hay un 95% de probabilidad de la TAS media de una población esté comprendida entre 120 y 130 mmHg (120 y 130 son los límites de intervalo de confianza). 

        Se puede dar para cualquier parámetro de la población, para una media, proporción, prevalencia, incidencia, riesgo relativo… Se utilizan como indicadores de la variabilidad de las estimaciones. Cuanto más “estrecho” sea el intervalo, mejor. Si consigo tener un intervalo estrecho soy más preciso a la hora de acercarme al parámetro, pero también aumento el riesgo de error.

3.Ejemplo de inferencia y estimación:Teorema central del límite

      Alguien descubre que cuando tengo una población de estudio y selecciono una muestra, hay muchas posibles muestras en una población. Algunos estadísticos se dedicaron a medir algunos parámetros en diferentes muestras de la población y descubrieron que si se dibujaba una representación grafica de todos los valores obtenidos de todas las muestras, esa sigue una distribución normal.
      Estudio tiempos de curación de úlceras en una muestra de 100 pacientes de una población de 5000 habitantes.
  • En la primera muestra obtengo 53,77 días (esto es un estimador puntual) 
  • Si vuelvo a hacer otra selección aleatoria y tengo otra muestra, me sale 57,08 días 
  • Si seleccionamos muchas muestras, cada una nos dará un valor distinto. 
  • Construimos un histograma que tiene una distribución normal. Nos encontramos que la media total sería 57,46 días y una desviación típica de 22,84 días
4.Error estándar

     Es la medida que trata de captar la variabilidad de los valores del estimador (en este caso la media de los días de curación de la úlcera. El error estándar es la desviación típica que vimos en la gráfica.  El error estándar de cualquier estimador mide el grado de variabilidad en los valores del estimador en las distintas muestras de un determinado tamaño que pudiésemos tomar de una población.  Cuanto más pequeño es el error estándar de un estimador, más nos podemos fiar del valor de una muestra concreta.  Si en lugar de variar el valor de la media en las muestras entre 52 y 64 días, variara entre 20 y 90 días, sería menos probable que al seleccionar una muestra y calcular su media, ésta estuviera cercana a 57,46 que es el valor de la media en la población. 

CÁLCULO DEL ERROR ESTÁNDAR: Depende de cada estimador: 
  • Error estándar para una media: s/√𝑛 
  • Error estándar para una proporción: √𝑝(1−𝑝) 𝑛

De ambas formas se deduce que, mientras mayor sea el tamaño de una muestra, menor será el error estándar.

5.Teorema central del límite:
     Para estimadores que pueden ser expresados como suma de valores muestrales, la distribución de sus valores sigue una distribución normal con media de la de la población y desviación típica igual al error estándar del estimador de que se trate.Si sigue una distribución normal, sigue los principios básicos de ésta: 
  • ± 1S                   68,26% de las observaciones 
  • ± 2S                   95,45% de las observaciones 
  • ± 1,95S              95% de las observaciones 
  • ± 3S                   99,73% de las observaciones 
  • ± 2,58S              99% de las observaciones

6.Intervalos de confianza

      Son un medio de conocer el parámetro en una población midiendo el error que tiene que ver con el azar (error aleatorio). Se trata de un par de números tales que, con un nivel de confianza determinados, podamos asegurar que el valor del parámetro es mayor o menor que ambos números.  Se calcula considerando que el estimador muestral sigue una distribución normal. 

CÁLCULO: 
  •  I.C de un parámetro = estimador +- z (e. Estándar) 
  • Z es un valor que depende del nivel de confianza 1-a con que se quiera dar el intervalo. 
  • Para nivel de confianza 95% >> z=1,96 
  • Para nivel de confianza 99% >> z=2,58 
  • El signo +- significa que cuando se elija el signo negativo se conseguirá el extremo inferior del intervalo y cuando se elija el positivo se tendrá el extremo superior
      Mientras mayor sea la confianza que queramos otorgar al intervalo, éste será más amplio, es decir, el extremo inferior y el superior del intervalo estarán más distanciados, y, por tanto, el intervalo será menos preciso. Se puede calcular intervalos de confianzas para cualquier parámetro: medias aritméticas proporciones, riesgos relativos, odds ratio, etc.

7.Contraste de Hipótesis

     Para controlar los errores aleatorios, además del cálculo de intervalos de confianza, contamos con una segunda herramienta en el proceso de inferencia estadística: los tests o contrastes de hipótesis . 
Con los intervalos nos hacemos una idea de un parámetro de una población dando un par de números entre los que confiamos que esté el valor desconocido. 
Con los contrastes (tests) de hipótesis la estrategia es la siguiente:
  • Establecemos a priori una hipótesis acerca del valor del parámetro  
  • Realizamos la recogida de datos  
  • Analizamos la coherencia de entre la hipótesis previa y los datos obtenidos
       Son herramientas estadísticas para responder a preguntas de investigación: permite cuantificar la compatibilidad entre una hipótesis previamente establecida y los resultados obtenidos  - Sean cuales sean los deseos de los investigadores, el test de hipótesis siempre va a contrastar la hipótesis nula (la que establece igualdad entre los grupos a comparar, o lo que es lo mismo, la no que no establece relación entre las variables de estudio)

ERRORES DE HIPÓTESIS: 
  • Con una misma muestra podemos aceptar o rechazar la hipótesis nula, todo depende de un error, al que llamamos α  
  • El error α es la probabilidad de equivocarnos al rechazar la hipótesis nula 
  • El error α más pequeño al que podemos rechazar H0 es el error p  
  • Habitualmente rechazamos H0 para un nivel α máximo del 5% (p <0.05)
  • Es lo que llamamos “significación estadística”

Tema 8: Teoría de muestras

1.Estimación e inferencia estadística

      Al conjunto de procedimientos que permiten elegir muestras de tal forma que éstas reflejen las características de la población le llamamos técnicas de muestreo. Siempre que trabajamos con muestras (no estudiamos el problema en toda la población sino en una parte de ella (hay que asumir un cierto error). Si la muestra se elige por un procedimiento de azar, se puede evaluar ese error. La técnica de muestreo en ese caso se denomina muestreo probabilístico o aleatorio y el error asociado a esa muestra elegida al azar se llama error aleatorio. En los muestreos no probabilísticos (no usan el azar) no es posible evaluar el error. En los muestreos probabilísticos, el error aleatorio es inevitable, pero es evaluable.

PROCESO DE INFERENCIA ESTADÍSTICA: Quiero medir un parámetro en la población, no puedo medirlo en todos los sujetos y realizo una preselección preferiblemente aleatoria y a través de esa muestra obtengo el estimador que me permite realizar la inferencia. 

2.Procedimiento muestral

     Un muestreo es un método tal que al escoger un grupo pequeño de una población podamos tener un grado de probabilidad de que ese pequeño grupo posea las características de la población que estamos estudiando.  Debería ser de tal manera que me permitiera tener una muestra lo más parecida posible a la realidad, porque si tomo la tensión en una plaza de abastos, la mayoría de los participantes van a ser sólo personas mayores y sobre todo mujeres.

3.Tipos de muestreos

NO PROBABILÍSTICOS: no utilizan el azar, no permite evaluar errores y hay sesgos de selección. 
  • Por conveniencias 
  • Por cuotas 
  • Accidental
 
PROBABILÍSTICO: introducen el azar. El azar me permite dimensionar el error aleatorio que cometo.  
  • Por conglomerados: se aplica cuando la población de estudio es geográficamente muy amplia 
  • Estratificados: es probabilístico, pero incorpora una serie de condiciones. 
  • Aleatorios sistemáticos 
  • Aleatorios simples 
4.Muestreo No probabilístico

      No siguen el proceso aleatorio, por lo que no conocemos la probabilidad de que un sujeto participe en el estudio. Eso quiere decir que los estudios que utilizan muestreo por conveniencia no representan las características del grupo completo, no podemos hacer inferencia. Se caracteriza porque el investigador selecciona la muestra siguiendo unos criterios identificados para los fines del estudio que realiza.
  • Por Conveniencia o Intencional: En el que el investigador decide, según sus objetivos, los elementos que integrarán la muestra, considerando las unidades “típicas” de la población que se desea conocer.
  • Por Cuotas: En el que el investigador selecciona la muestra considerando algunos fenómenos o variables a estudiar, como: Sexo, raza, religión, etc.
  • Accidental: Consiste en utilizar para el estudio las personas disponibles en un momento dado, según lo que interesa estudiar. De las tres es la más deficiente.

5.Muestreo Probabilístico (Aleatorio)

       Todos y cada uno de los elementos de la población tienen una probabilidad calculable y, por lo tanto, conocida, de ser relegidos para la muestra. Consiste en seleccionar una parte de una población de tal forma que todas las muestras posibles de tamaño fijo, tengan la misma posibilidad de ser seleccionada.

ALEATORIO SIMPLE:
       Se caracteriza porque cada unidad tiene la probabilidad equitativa de ser incluida en la muestra. La probabilidad de todos los participantes es la misma. El procedimiento más básico es el muestreo por sorteo o rifa. Meto 100 números en un bombo y saco 50 al azar.  El inconveniente ocurre cuando la población es muy grande, entonces utilizamos una tabla de números aleatorios que es más económico y requiere menor tiempo.
 ALEATORIO SISTEMÁTICO:
     Similar al simple, en donde cada unidad del universo tiene la misma probabilidad de ser seleccionada. Por ejemplo: tengo 500 habitantes y quiero seleccionar una muestra de 100. Divido el número de habitantes entre el número de personas que quiero en la muestra: 500/100=5. 5 será el intervalo para la selección de cada unidad muestral. Por ejemplo, saco el primer número al azar, por ejemplo 5, a partir de ahí tengo que ir sacando números de 5 en 5 hasta tener 100 participantes.

ESTRATIFICADO:
      Se caracteriza por la subdivisión de la población en subgrupos o estratos, debido a que las variables principales que deben someterse a estudio presentan cierta variabilidad o distribución conocida que puede afectar a los resultados.

CONGLOMERADO:
         Se usa cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman el universo o población y resulta muy complejo elaborarla. En la selección de la muestra en lugar de escogerse cada unidad, se toman los subgrupos o conjuntos de unidades “conglomerados”. En este tipo de muestreo, el investigador no conoce la distribución de la variable.
Las inferencias que se hacen en una muestra conglomerada no son tan confiables como las que se obtienen en un estudio hecho por muestreo aleatorio. Cuando se combina el estratificado con el conglomerado se denomina multietápico. Por ejemplo: quiero hacer un estudio en 120 colegios, para no ir a los 120 colegios, cojo 15 colegios de muestra. 

6.Tamaño de la muestra

El tamaño de la muestra a tomar va a depender de: 
  • El error aleatorio (estándar) 
  • De la mínima diferencia entre los grupos de comparación que se considera importante en los valores de la variable a estudiar 
  • De la variabilidad de la variable a estudiar (varianza en la población) 
  • El tamaño de la población de estudio 

>Cálculo del tamaño de una muestra para estimar la media de una población:

  • Z es un valor que depende del nivel de confianza que se quiera dar a los intervalos calculados a partir de estimadores de esa muestra (Para confianza de 95% z=1,96 y para nivel de confianza de 99%  z=2,58) 
  • S2: es la varianza poblacional 
  • E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar 
  • Si tras esta operación se cumple el resultado: N>n (n-1) el cálculo del tamaño muestral termina aquí. 
  • Si no se cumple, obtendremos el tamaño de la muestra con esta fórmula: n'=n/1+(n/N)

>Cálculo del tamaño de una muestra para estimar una proporción

  • P es la proporción de una categoría de la variable (por ejemplo, la presencia de la enfermedad, si o no) 
  • 1-p: es la proporción de la otra categoría 
  • Z: es el valor de la confianza 
  • N es el tamaño de la población 
  • E: es el error máximo aceptado por los investigadores en las diferencias entre los grupos de comparación de la variable a estudiar

miércoles, 10 de abril de 2019

Tema 7: Teoría de la Probabilidad

1.Probabilidad

      El concepto de probabilidad es muy frecuente para comunicarnos y entendernos: 
  • Ej: Las probabilidades de sobrevivir a una operación son del 50%.  
  • Ej: Un paciente que ingresa en el hospital tiene un 15% de probabilidad de padecer una infección hospitalaria.  
  • Ej: Durante este invierno, la prevalencia de enfermedades respiratorias es del 13%, 13 de cada 100 individuos padece una enfermedad respiratoria durante el invierno.
      En todos estos ejemplos se está dando a medida de ocurrencia de un evento que es incierto: sobrevivir a la operación, tener una infección hospitalaria o la ocurrencia de enfermedades respiratorias.

     Se expresa mediante un número entre 0 y 1 (o en porcentajes). En estos ejemplos, si no existe la certeza de que ocurran los hechos, existe una esperanza dimensionada y razonable, de que el hecho anunciado se vea confirmado. Esta estimación sobre la probabilidad de ocurrencia del evento nos ayuda a tomar decisiones. Cuanto más probable es que ocurra un evento, su medida de ocurrencia estará más próximo a 1 o a 100%, y cuanto menos probable, más se aproxima al cero.

     Aunque el concepto es simple, ya que se usa de manera intuitiva, su definición es complicada y tiene tres vertientes:

1.1.Probabilidad Subjetiva o Personalística

      La probabilidad mide la confianza que el individuo tiene sobre la certeza de una proposición determinada. Por ejemplo: los epidemiólogos se basan en la experiencia para afirmar que el próximo invierno, la epidemia de gripe tendrá una probabilidad del 0,0018 (180 casos por cada 100.000 habitantes)

     Este concepto de las probabilidades ha dado lugar al enfoque de análisis de datos estadísticos llamado “Estadística Bayesiana” .

1.2.Probabilidad Objetiva

PROBALIBILIDAD CLÁSICA O ''A PRIORI'':

     Data del siglo XVII (Laplace, Pascal, Fermat), desarrollada para resolver problemas relacionados con los juegos de azar (dados, monedas, ruletas…). Las probabilidades se calculan con un razonamiento abstracto.

     Ejemplo: no hay que lanzar el dado para saber que la probabilidad “a priori” de que salga el 6 es de 1/6=0,16

      Definición: Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son igualmente probables, y si m de esos eventos poseen una característica E, la probabilidad de ocurrencia de E es igual a m/N . 
P(E) = 𝑀 / 𝑁

  • Ley de los Grandes Números: La probabilidad a priori de que salga un número en un dado es P(A)= 1/ 6 = 0,166 =16,6% . Inicialmente esa probabilidad real puede no cumplirse, pero si repetimos muchas veces el experimento, la frecuencia relativa de un suceso A, cualquiera, tiende a estabilizarse en torno al valor “a priori” .

PROBABILIDAD RELATIVA O ''A POSTERIORI''

       Definición: si un suceso es repetido un gran número de veces, y si algún evento resultante, con la característica E ocurre m veces, la frecuencia relativa de la ocurrencia E, m/n, es aproximadamente igual a la probabilidad de ocurrencia de E. 
P(E) = 𝒎/ 𝒏
(Si n es suficientemente grande)

      Dicho de otra forma, si el número de determinaciones (repeticiones de un experimento aleatorio) es grande, podemos esperar que la probabilidad observada se acerque a la probabilidad teórica. 

2.Eventos o sucesos

      Cuando se realiza un experimento aleatorio, diversos resultados son posibles. El conjunto de todos los resultados posibles se llama espacio muestral (S)
  • Se llama suceso o evento a un subconjunto de dichos resultados. Por ejemplo: las veces que sale la cara en la moneda
  • Se llama evento complementario de un suceso A, al formado por los elementos que no están en A y se denota Ac. Por ejemplo: todo lo que no es salir cara en la moneda, o por ejemplo yo llamo evento al número 6 del dado, cada vez que no salga 6 en el dado, será evento complementario.
  • Se llama evento unión de A y B, al formado por los resultados experimentales que están en A o en B (incluyendo todos los que están en ambos) El evento A es ser mujer y el B es ser rubia: AUB sería la suma de ser mujer o la suma de ser rubia.
  • Se llama evento intersección de A y B, al formado por los elementos que están entre A y B. El evento A es ser mujer y el B es ser rubia: A intersección B sería la suma de ser mujer y la suma de ser rubia, es decir, poseer las dos características

Algunas propiedades de las probabilidades son:
  • Cuando dos sucesos se excluyen mutuamente, es decir, por ejemplo, sacar cara o sacar cruz, la probabilidad de que se produzca cara o cruz seria la probabilidad de AUB. En ese caso simplemente hay que calcular la suma de los dos conjuntos.
  • Cuando los dos sucesos no son mutuamente excluyentes, caso de ser mujer y ser rubio, por ejemplo, la probabilidad de que se produzca A o B seria la suma de A + la suma de B, pero tengo que descontar las mujeres que poseen las dos características.
  • Cuando A y B son eventos independientes, es decir, la ocurrencia de uno no influye en la ocurrencia de otro, es el producto de los dos subconjuntos.
3.Reglas básicas de la teoría de las probabilidades
  • Las probabilidades oscilan entre 0 y 1.
  • La probabilidad de un suceso contrario es igual a 1 menos la probabilidad del suceso. Por ejemplo: la probabilidad de ser mujer, si hay 8 personas, la probabilidad de ser hombre sería 8-4=4.
  • La probabilidad de un suceso imposible es 0.
  • La unión de A y B es: si los eventos son compatibles, que en la mayoría lo son, calculamos la probabilidad de A+ probabilidad de B- intersección entre dos conjuntos.
  • La probabilidad condicionada de un suceso A a otro de B se expresa: P (A/B)= 𝑃(𝐴𝑖𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑐𝑖ó𝑛𝐵) 𝑃(𝐵)   si P(B) es distinto de 0. Y al contrario P(B/A) …
Cuando es una pregunta condicionada, siempre es a priori.

4.Teorema de Bayes

      Expresa la probabilidad condicional de un evento aleatorio A dado B (probabilidad condicionada) en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A.

       En términos más generales, el teorema de Bayes que vincula la probabilidad de A dado B con la probabilidad de B dado A.

        Por ejemplo, sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza.


 5.Distribución de probabilidad en variable discretas: binominal y poisson. 

5.1.Distribución Binominal

      La distribución binomial es un modelo matemático de distribución teórica de (la normal es con variables continuas) variables discretas.
  • Cuando se producen situaciones en las que sólo existen dos posibilidades (cara/cruz)
  • El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente.
  • La probabilidad del suceso. A es constante, la representamos por p, y no varía de una prueba a otra. La probabilidad de A es 1-p y la representamos por q.
  • El experimento consta de un número n de pruebas
5.2.Distribución de Poisson

      Poisson: médico miliar francés que estudia en el siglo XIX la probabilidad de que un soldado muera en el campo de batalla por golpes de un caballo. Para variables discretas. También se le llama la distribución de probabilidad de casos raros. 

6.Distribuciones normales

      Gauss descubrió en su teorema varias peculiaridades en relación a estas distribuciones. Comprobó que la media coincide con la moda que es el punto más alto y con la mediana. En todas las distribuciones si yo le sumo y le resto el valor de una desviación típica a la media de cualquier serie estadística que sigue una distribución normal, el valor de esa serie se va a encontrar en el 68,26%.

TIPIFICACIÓN DE VALORES EN UNA NORMAL: 
     
Extrapolando aparecen los principios básicos de las distribuciones normales y podemos tipificar valores de una normal: 

La tipificación de valores se puede realizar si…
  • Trabajamos con variables continuas que sigue una distribución normal y tiene más de 100 unidades (Ley de los Grandes Números)
  • La tipificación nos permite conocer si otro valor corresponde o no a esa distribución de frecuencia
Sabemos por la forma de la curva que: 
  • La media coincide con lo más alto de la campana: 8
  • La desviación típica es de 2 puntos
        >50% tiene puntuaciones >8 porque la media coincide con la mediana y deja un 50 por arriba y otro por abajo.
         >50% tiene puntuaciones <8 - 
  • Aproximadamente el 68% puntúa entre 6 y 10
       >Media +/- 1 desviación típica: 68,26%
       >Media +/-2 desviación típica: 95% o Media +/-3 desviación típica: 99%’0

viernes, 5 de abril de 2019

Tema 6: Representación gráfica de la información

Representación variables cualitativas y cuantitativas discretas. Representación de variables cuantitativas continuas. Errores en las representaciones.

1.Representaciones gráficas

     Forma rápida de comunicar información numérica (frecuencias). Son la imagen de las ideas (barras, histogramas, sectores...). Complementan el análisis estadístico, aumentando la información y
ofreciendo orientación visual. No reemplaza a las medidas estadísticas que deben ser calculadas
Normas básicas:
  • Visualmente claros
  • Claramente descritos en pie de figura y en texto
  • Representar gráficamente las conclusiones del estudio
  • Evitar gráficos confusos, no sobrecargarlos
2.Representaciones gráficas más empleadas


VARIABLES CUALITATIVAS:
En estas variables podemos utilizar: 
  • Gráfico de sectores: (dicotómicas o Policotómicas con pocas categorías, si tiene muchas categorías es confuso.) Por ejemplo: el sexo, que tiene dos categorías. 
  • Gráfico de barras: (Policotómicas). Cuando tenemos 5 o más categorías. 
  • Pictogramas: (Policotómicas)

VARIABLES CUANTITATIVAS: 
  • Gráfico de barras: (sólo si se trata de variable discreta con bajo rango de valores). Por ejemplo: una escala de dolor de 0-10, es discreta porque solo puede adoptar valores enteros y tiene pocos valores. Si tiene un rango de valores de 100 no podemos utilizar el grafico de barras. 
  • Histogramas: (variables continuas). No se puede aplicar a variable cualitativa. 
  • Polígonos de frecuencia: (variables continuas). No se puede aplicar a variable cualitativa.
  • Gráfico de tronco y hoja: (variables continuas)
DATOS BIDIMENSIONALES Y MULTIDIMENSIONALES: 
Puedo mezclar variables cuantitativas y cualitativas o dos cualitativas/cuantitativas. 
  • Tendencias temporales 
  • Nubes de punto (scatter plot). Sólo se pueden mezclar dos continuas (cuantitativa) 
  • Otros gráficos multidimensionales (diagrama de estrellas…) 

3.Variables Cualitativas (Dicotómicas o de pocas categorías)

GRÁFICO DE SECTORES
  • El área de cada sector circular es proporcional a la frecuencia (absoluta o relativa) de las categorías de la variable.
  • No usar con variables ordinales.
  • No recomendables para más de 3 ó 4 categorías.
  • Sólo muestra una variable a la vez. Si se quiere hace comparaciones se tienen que hacer dos diagramas de sectores.
Ejemplo: Distribución por sexos de pacientes atendidos en consulta de enfermería. 

>Errores en gráficos de sectores: 
  • Variable policotómica (muchas categorías)
  • Variable ordinal
DIAGRAMA DE BARRAS

         Las frecuencias absolutas o relativas de todas las categorías de una variable cualitativa se muestran fácilmente con este tipo de gráfico. Cada barra representa una categoría y su altura la frecuencia (absoluta o relativa).  Las barras deben estar separadas. Es importante que el eje Y empiece en la frecuencia 0. 

  • Para hacer una comparación de dos gráficas de barras hay que representar esas dos graficas con frecuencias relativas no con absolutas. Se comparan frecuencias absolutas y no son comparables. 
  • Tener muchas categorías, si tiene muchas categorías es recomendable utilizar un histograma 

PICTOGRAMA: No aporta información adicional al diagrama de barras. Se incluye una imagen representativa de la variable.

4.Variables Cuantitativas

HISTOGRAMA

     Sucesión de rectángulos contiguos construidos sobre una recta. Representa a una variable continua con sus datos agrupados en intervalos. La base de cada rectángulo representa la amplitud de cada intervalo y la altura está determinada por la frecuencia.Cada intervalo representado en el histograma ocupa un rectángulo



Los histogramas con polígonos de frecuencia: Igual que diagrama de barras en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia: es para variables CONTINUAS. Si la amplitud del intervalo es la misma, elevaremos columnas UNIDAS, a altura la frecuencia correspondiente. Si la amplitud del intervalo es diferente, el área del rectángulo columna será proporcional a la frecuencia representada.


>Errores en histogramas:
  • Se ha realizado en realidad un diagrama de barras, inapropiado para una variable continua 
  • No se han tenido en cuenta las diferentes amplitudes de los intervalos 

GRÁFICO DE TRONCO Y HOJAS

Híbrido entre tabla e histograma: Nos muestra la forma de la distribución y los valores de la variable. Cada dato de la serie se divide en dos partes: el tronco (decenas) y la hoja (unidades)


5.Gráficos para datos bidimensionales

Nos permiten representar más de una variable en el mismo gráfico.

> Gráficos de tendencias temporales 
> Diagramas de dispersión (nube de puntos o “scatter plot”) 
  • Para representar dos variables continuas en un grupo de individuos. 
  • En el eje “X” se representa la variable independiente y en el eje “Y” los valores de la variable dependiente. 
  • La imagen del diagrama nos da una idea de la posible correlación entre las dos variables. 

> Diagrama de estrellas: 
  • Para representar un conjunto de variables cuantitativas y comparar entre diferentes unidades de análisis (individuos o conglomerados, que son valores medios obtenidos de poblaciones distintas).
  • Cada variable representa un vértice del diagrama de estrella.
  • Gráficamente da una idea del comportamiento conjunto de las variables estudiadas. 
  • También permite comparativas con un “Gold standard” (que sería por ejemplo comparar con el peso ideal o altura ideal).