Ir al contenido principal

Diagrama de temas

    • Datos Representativos

      Datos representativos

      Una idea similar a la relevancia de la característica es la de los datos representativos. Los datos de muestra de una población son representativos si funcionan bien en aproximarse a las características de esa población más amplia. Supongamos que tiene un conjunto de datos donde cada fila es un estudiante de su escuela. Si tiene 40 estudiantes como muestra, y 32 de ellos son mujeres y 8 son hombres, su muestra realmente no es representativa de la población más amplia de estudiantes, especialmente si sabe que todo el cuerpo estudiantil está más cerca de una división de 50/50. Por lo tanto, cualquier resultado que obtenga del uso de esta muestra puede ser subóptimo, ya que ha tergiversado un grupo demográfico clave del cuerpo estudiantil.

      El tamaño de la muestra también puede derivar en datos no representativos. Es posible que 40 estudiantes sea demasiado pocos para capturar una variedad lo suficientemente amplia de datos demográficos de los estudiantes, incluso si cada miembro de esa muestra es lo suficientemente diferente de todos los demás miembros. Por supuesto, hay limitaciones para el muestreo representativo, ya que no es posible tener en cuenta cada variación en la mayoría de los escenarios. Del mismo modo, debe haber al menos algún punto en común entre los miembros de su muestra, o de lo contrario no habrá patrones que reconocer o tendencias que estimar.

      Una solución común al problema de la representación es el muestreo aleatorio estratificado. Para esta solución, el profesional identifica grupos clave (por ejemplo, demografía como género, raza, edad, etc.) que son relevantes para el problema y luego divide a la población en estos grupos (estratos). Dentro de cada estrato, se eligen miembros de forma aleatoria. A continuación, todos estos miembros se compilan a partir del ejemplo. Esto garantiza que la muestra final contendrá datos que son más representativos de la población que solo una muestra aleatoria normal o una muestra escogida a mano.

      Figura 1. Un ejemplo de dividir un conjunto de datos en estratos de rango de edad y, a continuación, muestrear miembros de cada estrato.

      Por lo tanto, al analizar los conjuntos de datos, debe examinar las características categóricas para identificar aquellas que tienen el potencial de ser estratos clave. Una vez que identifique estos estratos, puede determinar qué proporción de los ejemplos de datos están en cada estrato y cómo se compara con la población más amplia. Tenga en cuenta que la representación no siempre implica una división uniforme. Si el 80 % de toda la población estudiantil es femenina, su muestra de 32 estudiantes mujeres y 8 hombres es realmente representativa en ese sentido. Además, puede estar en una posición en la que no se conocen las proporciones de cada estrato en la población, lo que dificulta o incluso imposibilita saber qué es o no es representativo.

      Información adicional

      Para obtener más información acerca de otros tipos de muestreo aleatorio, consulte este sitio.