Ir al contenido principal

Diagrama de temas

    • Cantidad de datos


      Hay varios factores que afectan la forma en que se entiende y utiliza un conjunto de datos. Uno de esos factores es la cantidad de datos. "Cantidad" en este caso puede referirse al número de ejemplos de datos, al número de características o ambos. Por lo tanto, un conjunto de datos estructurado de grandes cantidades puede tener muchas filas, muchas columnas o muchas filas y columnas. Un conjunto de datos no estructurado de grandes cantidades, como una colección de documentos escritos, puede incluir muchas palabras totales y muchos tipos diferentes de palabras. Es importante hacer estas distinciones porque los diferentes tipos de cantidades son relevantes para los diferentes tipos de problemas. Por ejemplo, algunos algoritmos de aprendizaje automático funcionan mejor con un tipo que con otro.

      Por lo general, cuantos más datos informativos tenga (es decir, las características más significativas), mejor será el modelo que producirá. Por ejemplo, imagine una empresa que desea analizar los datos de sus clientes pero tiene un conjunto de datos con solo dos características para cada cliente. Puede ser difícil para el modelo entender cómo se relacionan esas variables y puede no encontrar diferencias significativas entre cada uno de los clientes. Por otro lado, podría tener 80 columnas que describan a sus clientes de una manera significativa, pero si solo tiene 10 clientes registrados, es posible que su modelo no tenga suficientes ejemplos para realizar una estimación precisa. Tener un gran número de ejemplos puede ayudar a minimizar la influencia de algunos puntos de datos incorrectos.


      Figura 1. Un ejemplo en donde se tiene muchos ejemplos pero muy pocas características.

      Figura 2. Un ejemplo en donde se tiene muchas características pero muy pocos ejemplos.


      No siempre es factible tener un conjunto de datos de grandes cantidades, por lo que es posible que deba llegar a un acuerdo. Un enfoque requiere tener al menos 10 veces más registros que el número de características que utiliza el modelo. Por supuesto, una cantidad mayor sería aún mejor.


      Figura 3. Un ejemplo de una buena mezcla de muchas características y muchos ejemplos.