Ir al contenido principal

Diagrama de temas

    • Glosario


      CADENA DE RESPONSABILIDAD

      Un registro de cada persona responsable de algún aspecto de un proyecto y cómo esas responsabilidades cambian de manos con el tiempo.



      ACUERDO DE USO COMPARTIDO DE DATOS

      Documento que describe la relación que tienen las organizaciones en cuanto al uso compartido de datos en uno o más proyectos.



      REGISTRO DE INCIDENTES

      Un registro de todos los supuestos o conocidos incidentes de seguridad de los que la organización ha sido objeto.



      REGISTRO DE RIESGOS

      Un documento que describe diferentes riesgos y su naturaleza.



      PLAN DE SEGURIDAD

      Documento que orienta cómo todo el personal relevante de una organización contribuye a la seguridad de uno o más sistemas.



      ESCALADO DE INFERENCIA

      El proceso de aumentar o disminuir los recursos disponibles para un sistema de IA en producción a medida que crece o se reduce la necesidad de predicciones y otras estimaciones.



      SUPERVISIÓN DE SALUD

      En el contexto de la IA, el proceso de evaluar continuamente una canalización de producción para cualquier problema que pueda afectar su capacidad para aportar valor.



      DESVIACIÓN DEL MODELO

      Consulte Desviación del concepto.



      INFERENCIA

      Consulte Estimación.



      ESTIMACIÓN

      La salida o la tarea prevista de un modelo de aprendizaje automático con base en el reconocimiento de patrones en los datos.



      COLABORACIONES DE DATOS

      Una asociación en la que las organizaciones acuerdan compartir datos entre sí para resolver un problema común.



      PCA

      (análisis de componentes principales) Un método de reducción de dimensionalidad que toma datos de alta dimensión y los proyecta en un espacio de dimensiones iguales o inferiores.



      GAN

      (red generativa antagónica) Una arquitectura de red neuronal que enfrenta dos redes neuronales diferentes entre sí, normalmente con el fin de generar imágenes.



      CODIFICACIÓN DE ETIQUETAS

      Un método de codificación en el que se asignan números incrementales a una etiqueta categórica a cada valor único de la categoría.



      CODIFICACIÓN FICTICIA

      Un método de codificación en el que una variable categórica se convierte en n #LioxSpecialChar8722# 1 columnas, donde n es el número de valores únicos de la variable categórica.



      PRUEBA A/B

      Un tipo de prueba de hipótesis que compara dos valores diferentes de la misma variable a fin de determinar qué valor es el más eficaz.



      INTERPRETABILIDAD

      Consulte Explicabilidad.



      EXPLICABILIDAD

      La propiedad por la cual se puede identificar y comunicar el funcionamiento interno de un sistema a una audiencia relevante.



      ANÁLISIS DE REGRESIÓN

      La técnica estadística de identificación de las relaciones entre variables.



      APRENDIZ FUERTE

      En el aumento de gradiente, un árbol de decisión que tiene una alta habilidad de clasificación debido a la combinación de las salidas de los aprendices más débiles.



      APRENDIZ DÉBIL

      En la optimización de gradiente, un árbol de decisión inicial que tiene baja habilidad de clasificación.



      REGRESIÓN LOGÍSTICA MULTINOMIAL

      Un algoritmo utilizado con frecuencia para resolver problemas de clasificación multiclase.



      REGLA EMPÍRICA

      Regla que describe los porcentajes de valores que se encuentran dentro de una, dos y tres desviaciones estándar de la media en una distribución normal.



      DATOS REALES

      Consulte Etiqueta.



      VECTOR

      Una matriz unidimensional.



      DEFENSA EN PROFUNDIDAD

      Un enfoque de varias capas para proteger datos, computadores y otros recursos.



      FLEXIBLE

      Una propiedad por la que un recurso necesita crecer o reducirse con el tiempo.



      TERMINAL

      Un programa que acepta comandos de texto.



      FUNCIÓN

      En programación, un fragmento de código que realiza una tarea específica y repetible.



      CADENA

      In tipo de datos utilizado por los lenguajes de programación para almacenar valores de texto.



      ÍNDICE

      En una base de datos relacional, una columna que se puede utilizar para optimizar la búsqueda y la clasificación de datos.



      TIPO DE DATOS

      Una clasificación de valores de datos que determina cómo se deben ejecutar esos valores.



      SESGO SOCIAL

      Un tipo de sesgo que se produce cuando los estereotipos afectan a los datos que se registran o introducen.



      SESGO DE VARIABLE OMITIDA

      Un tipo de sesgo que se produce cuando faltan características de datos críticas para producir resultados precisos.



      SESGO DE DESVÍO

      Consulte Desviación del concepto.



      AUDITORÍA

      El proceso de verificar que las actividades de una persona u organización cumplan los requisitos.



      BASE DE DATOS RELACIONAL

      Una colección de elementos de datos que presentan relaciones predefinidas, organizadas como columnas y filas en una tabla.



      ANÁLISIS PREDICTIVO

      Un campo de análisis estadístico que realiza predicciones sobre eventos futuros.



      DESCUBRIMIENTO DE DATOS

      El proceso de extraer información útil de grandes conjuntos de datos.



      DATOS TRANSACCIONALES

      Datos sobre eventos que implican algún tipo de intercambio, como la compra de un producto.



      VISUALIZACIÓN DE DATOS

      El proceso de traducir datos sin procesar en gráficos, tablas y otros objetos visuales.



      PILA DE SOFTWARE

      Colección de componentes de software que componen toda una plataforma.



      VM

      (máquina virtual) Software que simula la ejecución de un sistema informático físico completo.



      REDUCCIÓN DE LA ESCALA

      El proceso de reducción de recursos en un entorno con el fin de hacer frente a la disminución de la demanda.



      AUMENTO DE LA ESCALA

      El proceso de agregado de más recursos a un entorno con el fin de satisfacer el aumento de la demanda.



      BIBLIOTECA

      Una colección de código y otros recursos que los programadores pueden reutilizar en sus propios proyectos.



      MATRIZ

      En programación informática, una colección de elementos como valores y variables.



      CÓDIGO ABIERTO

      Una clasificación de software que indica que es gratuito para que cualquiera lo use, copie, distribuya y modifique.



      AGENTE

      En el aprendizaje por refuerzo, una máquina que intenta alcanzar metas en un entorno.



      PROFESIONAL

      Alguien que ejerce una profesión.



      ANN

      (red neuronal artificial) Una aproximación de la máquina a las redes neuronales biológicas. Se utiliza en el aprendizaje profundo.



      CNN

      (red neuronal convolucional) Un tipo de red neuronal artificial (ANN) utilizada con más frecuencia para procesar datos de píxeles.



      RNN

      (red neuronal recurrente) Un tipo de red neuronal artificial (ANN) en la que la información puede fluir hacia y desde las neuronas artificiales en un bucle, en lugar de una sola dirección.



      FNN

      (red neuronal prealimentada) Un tipo de red neuronal artificial (ANN) en la que la información fluye hacia y desde las neuronas artificiales en una sola dirección.



      IA

      (inteligencia artificial) La capacidad de las máquinas para exhibir inteligencia similar a la humana.



      APRENDIZAJE AUTOMÁTICO

      Un subconjunto de IA que se centra en el uso de máquinas, computadores y software, para aprender de un conjunto determinado de datos y hacer estimaciones en función de esos datos.



      ALGORITMO

      Un conjunto de reglas para llevar a cabo operaciones de resolución de problemas.



      CIENCIA DE DATOS

      La disciplina que implica acumular y analizar datos, extraer valor de dichos datos y presentar el valor de los datos de una manera significativa.



      BIG DATA

      Colecciones de datos que son tan grandes y complejos que requieren herramientas avanzadas para procesarlos y analizarlos.



      BUSCADOR

      Software que toma una consulta del usuario como entrada, identifica los recursos que coinciden con dicha consulta y comunica esos recursos al usuario.



      PLN

      (procesamiento del lenguaje natural) La disciplina que implica el análisis y aplicación de lenguajes humanos por parte de computadores.



      VISIÓN ARTIFICIAL

      La disciplina que implica la comprensión de imágenes y videos a un alto nivel por parte de los computadores.



      ROBÓTICA

      La disciplina que implica el estudio, el diseño y la operación de robots.



      SESGO COGNITIVO

      Una noción fuerte y preconcebida de alguien o algo, con base en la información que tenemos, creemos que tenemos o no tenemos.



      ÉTICA

      Los principios morales que rigen el comportamiento o las acciones de una persona.



      SESGO

      En general, una actitud positiva o negativa injustificada que se aplica a individuos, grupos o ideas. En el aprendizaje automático, un tipo de error que se produce cuando las estimaciones de un modelo son diferentes de los datos reales.



      CAJA NEGRA

      Mecanismo al que se proporcionan una o más entradas para producir una o más salidas, sin conocimiento ni visibilidad de su funcionamiento interno.



      PENSAMIENTO DE DISEÑO

      Un enfoque para la generación de ideas que se centra en las necesidades humanas y la innovación.



      MODELO DE APRENDIZAJE AUTOMÁTICO

      Una representación matemática del proceso o sistema que necesita para analizar o automatizar de alguna manera.



      FLUJO DE TRABAJO DEL APRENDIZAJE AUTOMÁTICO

      La secuencia de pasos o fases necesaria para desarrollar un modelo de aprendizaje automático.



      CIENTÍFICO DE DATOS

      Un profesional que es responsable de recopilar, analizar e interpretar cantidades extremadamente grandes de datos.



      CONOCIMIENTOS ESPECIALIZADOS EN EL DOMINIO

      Conocimiento y comprensión de temas y campos específicos.



      A ESCALA

      En el tamaño necesario para resolver el problema, por lo general se refiere al manejo de grandes volúmenes de algo después de las pruebas en un entorno más pequeño.



      DESVIACIÓN DEL CONCEPTO

      Un proceso que puede tener lugar cuando los patrones que se usaron inicialmente para entrenar un modelo de AA cambian con el tiempo, de tal manera que el modelo ya no funciona bien con datos nuevos.



      APRENDIZAJE POR TRANSFERENCIA

      El proceso de usar un modelo de AA existente como base para un modelo nuevo.



      ENTRENAMIENTO

      El proceso en el que un modelo de AA aprende de los datos de entrada.



      RIESGO

      La posibilidad de que algo malo o incorrecto pueda suceder.



      MITIGACIÓN

      La práctica de reducir la gravedad de algo, como un riesgo.



      ÁMBITO

      Una descripción de todos los aspectos de un proyecto, incluidas las restricciones, limitaciones o los límites establecidos en el proyecto para ayudar a definirlo.



      PROGRESIÓN DEL ÁMBITO

      Una condición que puede ocurrir cuando la falta de restricciones definidas de un proyecto hace que crezca más allá de la intención original, hasta que el proyecto ya no es sostenible o no cumple con las expectativas.



      PARTE INTERESADA

      Una persona o un grupo que tiene un interés en algo.



      KPI

      (indicador clave de rendimiento) Una métrica utilizada para evaluar el éxito de un proyecto o sus actividades.



      FORMULACIÓN DE PROBLEMAS

      El proceso de identificación de un problema que debe solucionarse y redactarse en términos que sean comprensibles y procesables.



      APRENDIZAJE SUPERVISADO

      Un tipo de aprendizaje automático en el que se proporcionan valores conocidos como entrada para que un modelo pueda estimar estos valores en conjuntos de datos futuros.



      DIMENSIÓN

      Un tipo de componente, como un ejemplo, una característica o una etiqueta, que se usa en un modelo de aprendizaje automático. O bien, el número total de características (columnas) que utiliza un modelo de AA.



      EJEMPLO

      En el campo del aprendizaje automático, una instancia individual de datos dentro de un conjunto de datos.



      CARACTERÍSTICA

      En el campo del aprendizaje automático, una propiedad medible de un ejemplo en un conjunto de entrenamiento.



      ETIQUETA

      En el campo del aprendizaje automático, la variable en un conjunto de entrenamiento que intenta predecir para nuevas muestras de datos.



      APRENDIZAJE SIN SUPERVISIÓN

      Un tipo de aprendizaje automático en el que los valores de etiqueta no se proporcionan como entrada, por lo que el modelo no tiene una variable explícita para estimar.



      APRENDIZAJE SEMISUPERVISADO

      Una combinación de aprendizaje supervisado y no supervisado, donde algunos pero no todos los valores de etiqueta se proporcionan como entrada.



      APRENDIZAJE POR REFUERZO

      Un tipo de aprendizaje automático en el que un agente de software intenta lograr una o más metas en un entorno.



      AGRUPACIÓN EN CLÚSTERES

      Un tipo de resultado de AA que coloca los ejemplos de datos en grupos en función de sus similitudes.



      REGRESIÓN

      Un tipo de resultado de AA que mide la relación entre las variables y genera una estimación para una variable numérica.



      CLASIFICACIÓN

      Un tipo de resultado de AA donde un ejemplo de datos se coloca en una o más categorías.



      CENTROIDE

      En un modelo de agrupación en clústeres, la media (promedio) de todos los puntos de datos que contiene el clúster, a lo largo de todas las características.



      ESTOCÁSTICO

      La propiedad por la cual un proceso determinado aleatoriamente no puede estimar a la perfección eventos individuales o puntos de datos, pero puede demostrar un patrón general común para todo el conjunto de datos.



      PARALELIZACIÓN

      División de tareas de procesamiento entre varios procesadores para escalar verticalmente el rendimiento de un entorno de aprendizaje automático.



      GPU

      (unidad de procesamiento de gráficos) El chip de computador se utiliza normalmente como componente principal en un adaptador de gráficos. Estos chips están optimizados para operaciones matriciales, lo que los hace muy adecuados para realizar muchas tareas de aprendizaje automático.



      CPU

      (unidad central de procesamiento) El chip de computador que funciona como el componente central en un computador de uso general.



      OPERACIONES DE MATRIZ

      El manejo simultáneo de todos los elementos de datos dentro de una estructura grande de datos.



      TPU

      (unidad de procesamiento tensorial) Un circuito integrado específico de la aplicación ofrecido por Google Cloud y diseñado para acelerar las tareas de procesamiento para el AA de redes neuronales.



      PYTHON

      Un lenguaje de programación interpretado de alto nivel, orientado a objetos con una sintaxis fácil de aprender, cercana al inglés, que enfatiza la legibilidad.



      CONJUNTO DE DATOS

      Una colección de datos que se utilizará directamente para lograr las metas establecidas en las especificaciones del proyecto.



      DATOS NO ESTRUCTURADOS

      Datos que están en un formato que dificulta la búsqueda, el filtrado o la extracción de dichos datos.



      DATOS ESTRUCTURADOS

      Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de esos datos.



      DATOS SEMIESTRUCTURADOS

      Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de algunos elementos de esos datos, mientras que otros no son tan fáciles de trabajar.



      ATRIBUTO

      Consulte Característica.



      CONJUNTOS DE DATOS ABIERTOS

      Una colección de datos externos que están disponibles sin cargo para su uso sin restricciones en cuanto a derechos de autor, patentes u otros mecanismos de control.



      ETL

      (extraer, transformar y cargar) El proceso de combinar datos de varias fuentes, prepararlos y cargar los datos resultantes en un formato de destino.



      SESGO DE INFORME

      Un tipo de sesgo que se produce cuando a los datos de entrenamiento les faltan observaciones no informadas.



      SESGO DE DESGASTE

      Un tipo de sesgo que se produce cuando los datos de entrenamiento excluyen a los participantes que abandonaron con el tiempo.



      SESGO DE SELECCIÓN

      Un tipo de sesgo que se produce cuando el conjunto de datos de entrenamiento no representa realmente la población a la que se aplicará el modelo.



      DELIMITADOR

      Un carácter que se ha elegido para separar los valores de datos en una fila. De forma predeterminada, en un archivo CSV, el delimitador es la coma.



      NOSQL

      Cualquier tecnología de base de datos que no represente datos como tablas relacionales.



      SQL

      (lenguaje de consulta estructurado) Lenguaje para crear, recuperar, modificar y eliminar datos en una base de datos relacional mediante programación.



      AGREGACIÓN DE DATOS

      El proceso donde se resumen los datos de algún tipo, a menudo para que pueda realizar un análisis estadístico de dichos datos.



      CONSOLIDACIÓN DE DATOS

      El proceso de combinar datos similares en una forma más simplificada que sea más propicia para su transformación y carga.



      UNIR

      El proceso de crear un nuevo conjunto de datos a partir de diferentes fuentes de datos.



      DATOS ORIGINALES

      Datos que se pueden colocar en un pedido.



      DATOS CUALITATIVOS

      Datos que contienen valores categóricos.



      DATOS CUANTITATIVOS

      Datos que contienen valores numéricos que representan la magnitud.



      VARIABLE DISCRETA

      Una variable cuantitativa cuyos valores son contables y limitados, porque hay una brecha definida entre cada valor en un rango de valores.



      VARIABLE CONTINUA

      Una variable cuantitativa cuyos valores son incontables y pueden extenderse infinitamente.



      ANÁLISIS DE DATOS

      El proceso de tomar datos como entrada y, a continuación, su representación en una determinada estructura o sintaxis.



      CANALIZACIÓN

      Un conjunto secuencial de procesos que automatizan el proceso de ciencia de datos mediante la introducción de la salida de un proceso en la entrada del siguiente proceso.



      PREPARACIÓN DE LOS DATOS

      El proceso de modificar los datos para que admitan de forma más eficaz tareas como el análisis y el modelado de datos.



      LIMPIEZA DE DATOS

      El proceso de localizar y abordar errores e inconsistencias en los datos.



      DISPUTA DE DATOS

      El proceso de transformar los datos en una forma utilizable.



      ORGANIZACIÓN DE DATOS

      Consulte Disputa de datos.



      DESDUPLICACIÓN

      El proceso de identificar y eliminar entradas duplicadas de un conjunto de datos.



      CLAVE PRINCIPAL

      Un identificador único que tiene un valor diferente para cada fila de un conjunto o fuente de datos.



      CARGA DE DATOS

      El proceso de poner datos limpios en un destino final donde el resto del proceso de análisis y modelado puede realizarse.



      EXTREMO DE ETL

      Un entorno de desarrollo que puede configurar y aprovisionar sobre la marcha para su uso con tareas de ETL.



      ATAQUE A LA PRIVACIDAD

      Un tipo de ataque que puede tener lugar durante el entrenamiento del modelo, antes de que la solución esté implementada y protegida por completo, y que abarca ataques como ransomware, la exposición de información privada y el robo de identidad.



      AED

      (análisis exploratorio de datos) Una tarea en la que el profesional de IA examina de cerca los datos para revelar nueva información.



      CARACTERÍSTICA OBJETIVO

      Una variable sobre la que está interesado en aprender más.



      POBLACIÓN

      En estadística, todas las observaciones individuales dentro del dominio del problema que se estudia.



      MUESTRA

      En estadística, cualquier subconjunto de una población.



      DATOS REPRESENTATIVOS

      En estadística, datos de muestra se aproximan de cerca a las características de la población en general.



      MUESTREO ALEATORIO ESTRATIFICADO

      Método de muestreo que divide una población en grupos más pequeños (o estratos) en función de atributos o características compartidos y, a continuación, selecciona miembros aleatoriamente de cada grupo.



      CONJUNTO DE DATOS DESEQUILIBRADO

      Colección de datos que tiene una frecuencia desproporcionada de cada valor en una variable categórica, en especial si es la variable de destino.



      ERRORES

      Valores incorrectos o faltantes en un conjunto de datos.



      VALORES ATÍPICOS

      Valores dentro de un conjunto de datos que se desvían en gran medida de la propagación principal de los demás valores del conjunto de datos.



      APRENDIZAJE PROFUNDO

      Un tipo de aprendizaje automático que toma decisiones mediante el uso de varias capas de información.



      RUIDO

      Datos irrelevantes o irregulares que se mezclan con datos relevantes.



      CORRELACIÓN

      Una asociación matemática entre dos variables.



      ANÁLISIS ESTADÍSTICO DESCRIPTIVO

      Tipo de análisis de datos que resume cuantitativamente los patrones y las relaciones de un conjunto de datos mediante el uso de varios cálculos matemáticos y visualizaciones. También puede referirse a un cálculo individual que forma parte de este análisis. A veces se conoce como estadística descriptiva (o resumida).



      ESTADÍSTICAS DE RESUMEN

      Consulte Análisis estadístico descriptivo.



      DISTRIBUCIÓN DE FRECUENCIA

      Un tipo de distribución que demuestra la frecuencia de los resultados para una muestra particular de una variable aleatoria.



      DISTRIBUCIÓN DE PROBABILIDAD

      Un tipo de distribución que demuestra la probabilidad de resultados para una muestra particular de una variable aleatoria.



      DISTRIBUCIÓN NORMAL

      Función que representa la distribución de una variable aleatoria como un gráfico simétrico en forma de campana.



      GAUSSIANO

      Tener la forma de una curva o una distribución normales.



      UNIMODAL

      Una distribución con un pico, o modo.



      MULTIMODAL

      Una distribución con más de un pico, o modo.



      BIMODAL

      Consulte Multimodal.



      ASIMETRÍA

      La propiedad de una distribución que tiene una alta densidad de valores distribuidos hacia el extremo inferior o superior del eje X.



      TENDENCIA CENTRAL

      Una medida como la media, la mediana o el modo destinado a identificar el valor típico en un conjunto de datos.



      MEDIA ARITMÉTICA

      El promedio de todos los números en un conjunto.



      VARIABILIDAD

      La propiedad que indica el grado en que los datos varían entre todos los valores de un conjunto de datos.



      IQR

      (rango intercuartílico) La mitad media de los valores de datos en una distribución.



      DESVIACIÓN ESTÁNDAR

      Una medida de variabilidad; la raíz cuadrada de la varianza.



      VARIANZA

      Una medida de la dispersión entre los números de un conjunto de datos o la variación de las estimaciones de un modelo entre conjuntos de datos.



      CURTOSIS

      Una medida de la forma de las colas de una distribución, que representa la ponderación combinada de las colas en relación con el centro de la distribución.



      PLATICÚRTICO

      Se utiliza para describir una curva de distribución que es plana, con colas ligeras en los lados derecho e izquierdo.



      LEPTOCÚRTICO

      Se utiliza para describir una curva de distribución que está agrupada hacia el centro, con colas pesadas en los lados derecho e izquierdo.



      MESOCÚRTICO

      Una distribución con colas de forma promedio o normal a la derecha y a la izquierda.



      MOMENTO

      Un conjunto de cuatro parámetros estadísticos utilizados con frecuencia para medir una distribución, que incluyen media, varianza, asimetría y curtosis.



      MAPA GEOGRÁFICO

      Tipo de gráfico que representa visualmente los puntos de datos en relación con una ubicación.



      GRÁFICO DE BARRAS

      Un tipo de gráfico que representa la medida proporcional de las variables categóricas mediante barras horizontales o verticales.



      MAPA DE CALOR

      Un tipo de gráfico que muestra diferentes tonos o intensidades de color en una matriz en función de los valores de datos en esa ubicación de la matriz.



      GRÁFICO DE ÁREA

      Un tipo de gráfico de líneas en el que el espacio debajo de la línea se rellena con algún color o textura.



      GRÁFICO DE LÍNEAS

      Una variante de un gráfico de dispersión en el que una serie de líneas conecta los puntos de datos en orden.



      DIAGRAMA DE DISPERSIÓN

      Un tipo de diagrama que representa la relación entre dos variables mediante el uso de puntos en un gráfico.



      DIAGRAMA DE VIOLÍN

      Un tipo de diagrama que muestra la distribución de un valor numérico a través de la densidad de la probabilidad.



      DIAGRAMA DE CAJA

      Un tipo de gráfico que representa la distribución de una variable numérica mediante el uso de estadísticas de resumen como cuartiles y mínimos y máximos.



      HISTOGRAMA

      Un tipo de gráfico que representa la distribución de probabilidad de una variable dada utilizando bins.



      PREPROCESAMIENTO DE DATOS

      La tarea de aplicar varias técnicas de transformación y codificación a los datos para que puedan ser interpretados y analizados por un algoritmo de aprendizaje automático.



      IMPUTACIÓN

      El proceso de rellenar los valores de datos que faltan que consiste en utilizar cálculos estadísticos para determinar cuáles deben ser los valores faltantes.



      ESTANDARIZACIÓN

      Una técnica en la que las características se escalan de modo que el valor medio sea 0 y la desviación estándar sea 1.



      NORMALIZACIÓN

      Una técnica en la que las características se escalan de modo que el valor inferior sea 0 y el valor superior sea 1.



      DISEÑO DE LAS CARACTERÍSTICAS

      La técnica que permite generar y extraer características de los datos para mejorar la capacidad de un modelo de aprendizaje automático para realizar estimaciones.



      PUNTUACIÓN Z

      El número de desviaciones estándar que una muestra está por encima o por debajo de la media de todos los valores de la muestra.



      CODIFICACIÓN DE DATOS

      El proceso de conversión de datos de un tipo determinado en un valor codificado de un tipo diferente.



      CODIFICACIÓN ONE-HOT

      El proceso de convertir una variable categórica no ordinal en dos o más variables constituyentes, donde, para cada ejemplo, todas las variables son 0 excepto una.



      AGRUPAMIENTO DE DATOS

      El proceso de discretizar una variable continua colocando sus valores dentro de intervalos específicos.



      SELECCIÓN DE CARACTERÍSTICAS

      Tipo de reducción de dimensionalidad en el que se selecciona un subconjunto de las características originales.



      EXTRACCIÓN DE CARACTERÍSTICAS

      Un tipo de reducción de dimensionalidad en el que se derivan nuevas características a partir de las características originales.



      REDUCCIÓN DE DIMENSIONALIDAD

      Una tarea que minimiza los elementos irrelevantes o innecesarios a partir de un conjunto de datos para mejorar el proceso de ciencia de datos.



      MODELO DE APRENDIZAJE AUTOMÁTICO

      Una implementación específica de un algoritmo que se usa para generar predicciones y otros resultados de toma de decisiones con base en algunos datos de entrenamiento.



      HÁBIL

      Se usa para describir un modelo que es útil para su tarea prevista. Existen grados de habilidad; algunos modelos son más útiles que otros. Mejorar la habilidad de un modelo es el objetivo final del proceso de ajuste iterativo.



      SUBAJUSTE

      Un problema en el aprendizaje automático en el que un modelo no puede realizar estimaciones efectivas debido a la incapacidad de identificar los patrones subyacentes en los datos. Un modelo de subajuste exhibe baja varianza y alto sesgo.



      SOBREAJUSTE

      Un problema en el aprendizaje automático en el que las estimaciones de un modelo se ajustan bien a los datos de entrenamiento, pero no se generalizan bien a otros datos. Un modelo de sobreajuste exhibe alta varianza y bajo sesgo.



      GENERALIZACIÓN

      La capacidad de un modelo para adaptarse correctamente a datos nuevos que no se habían visto antes.



      ERROR IRREDUCIBLE

      Errores que no se pueden reducir más al ajustar un modelo de aprendizaje automático, debido a la forma en que se enmarcó el problema, y causados por factores como características no utilizadas o desconocidas que tendrían un efecto en la salida si se hubieran utilizado.



      RETENCIÓN

      Un método para aumentar la generalización en un modelo, en el que el conjunto de datos original se divide en dos o tres subconjuntos: el conjunto de entrenamiento y el conjunto de pruebas, y un conjunto de validación opcional.



      VALIDACIÓN CRUZADA ESTRATIFICADA DE K-MEANS

      Un método de validación cruzada de k-means en el que cada iteración tiene una muestra representativa de datos en conjuntos de datos que presentan desequilibrio de clase.



      VALIDACIÓN CRUZADA DE K-MEANS

      Método de validación cruzada en el que el conjunto de datos se divide en k grupos (iteraciones). Un grupo es el conjunto de pruebas. Los grupos restantes conforman el conjunto de entrenamiento.



      VALIDACIÓN CRUZADA

      Un conjunto de métodos para crear particiones de datos de modo que un modelo pueda generalizarse a nuevos datos de prueba.



      HIPERPARÁMETRO

      Un parámetro que es externo a un modelo de aprendizaje automático (es decir, establecido en el propio algoritmo y no en el modelo de aprendizaje).



      PARÁMETRO DEL MODELO

      Un parámetro que es interno al modelo de aprendizaje automático (es decir que se deriva del modelo a medida que se somete al proceso de entrenamiento).



      HIPÓTESIS

      Un modelo de aprendizaje automático candidato que se crea para probar su rendimiento, en especial si puede producir el resultado que necesita.



      VARIABLE DEPENDIENTE

      En un experimento, la variable bajo estudio y que se ve afectada por una o más variables independientes.



      VARIABLE INDEPENDIENTE

      En un experimento, una variable que puede tener un efecto en la variable dependiente.



      DOE

      (diseño de experimentos) Un enfoque para la identificación, análisis y control de las variables utilizadas en un experimento. También conocido como diseño experimental o DOX.



      DISEÑO EXPERIMENTAL

      Consulte DOE.



      HIPÓTESIS NULA

      El supuesto de que no hay diferencias significativas desde el punto de vista estadístico entre los modelos bajo comparación.



      VALOR P

      La probabilidad de obtener un resultado de la prueba si la hipótesis nula es verdadera.



      PRUEBA DE CHI CUADRADO

      Un tipo de prueba de hipótesis que compara el efecto de las variables categóricas.



      ANOVA

      (análisis de varianza) Un tipo de prueba de hipótesis que compara la media de tres o más distribuciones.



      PRUEBA Z

      Un tipo de hipótesis de prueba que compara la media de dos distribuciones cuando se conoce la desviación estándar de una población.



      PRUEBA T

      Un tipo de hipótesis de prueba que compara la media de dos distribuciones en las que se desconoce la desviación estándar de una población.



      INTERVALO DE CONFIANZA

      Una medida que devuelve un rango de valores plausibles para alguna variable desconocida, como la media de la población.



      REGRESIÓN LOGÍSTICA

      Un tipo de análisis de regresión en el que la salida es una probabilidad de clasificación entre 0 y 1.



      CLASIFICACIÓN BINARIA

      Un tipo de tarea de clasificación que categoriza los datos como un 1 o 0 (es decir, solo hay dos opciones).



      FUNCIÓN LOGÍSTICA

      El valor entre 0 y 1 que genera un algoritmo de regresión logística, que toma una forma de S.



      LÍMITE DE DECISIÓN

      La línea de división que separa las clases negativas de las positivas en un problema de clasificación.



      CLASIFICACIÓN MULTICLASE

      Un problema de clasificación en el que un ejemplo de datos se puede colocar en una de tres o más clases.



      HIPERPLANO

      En SVM, un límite de decisión que tiene líneas o curvas paralelas y equidistantes a cada lado del límite.



      SVM

      (máquinas de vectores de soporte) Algoritmos de aprendizaje supervisados que se pueden utilizar para resolver problemas de clasificación y regresión separando valores de datos mediante un hiperplano.



      CLASIFICACIÓN MULTIETIQUETA

      Un problema de clasificación en el que a un ejemplo de datos se le pueden dar varias etiquetas.



      K-NN

      (k vecino más cercano) Un algoritmo utilizado con frecuencia para clasificar ejemplos de datos en función de sus similitudes con otros ejemplos de datos dentro del espacio de características.



      NAÏVE BAYES

      Un tipo de algoritmo de clasificación que calcula las probabilidades de clasificación mediante el teorema de Bayes.



      ÁRBOL DE DECISIÓN

      Una disposición de las declaraciones condicionales y sus conclusiones en una estructura rama-hoja.



      APRENDIZAJE DE CONJUNTOS

      Una aplicación de aprendizaje automático en el que las estimaciones de varios modelos se consideran juntas.



      ÍNDICE DE GINI

      Una métrica de división de árbol de decisión que divide los árboles en función de la "pureza" de los nodos de decisión mediante la cuadratura de la probabilidad de clase de cada característica.



      CART

      (árbol de clasificación y regresión) Un algoritmo de árbol de decisión de aprendizaje automático que usa el índice de Gini para la división de datos a fin de resolver problemas de clasificación o regresión.



      BOSQUE ALEATORIO

      Un método de aprendizaje de conjunto que agrega varios modelos de árbol de decisión y selecciona el clasificador o predictor óptimo.



      AUMENTO DE GRADIENTE

      Un método de aprendizaje de conjunto iterativo que construye varios árboles de decisión en sucesión, donde cada árbol intenta reducir los errores del anterior.



      EMBOLSADO

      (agregación de bootstrap) Una técnica de aprendizaje de conjuntos para el muestreo de datos con reemplazo.



      MÉTRICA DE EVALUACIÓN

      Un método para evaluar la habilidad, el rendimiento y las características de un modelo con base en una medición específica.



      LEY DE GOODHART

      Un principio que establece lo siguiente: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida". Se usa como recordatorio de no depender demasiado de una métrica o un pequeño número de métricas al evaluar el rendimiento del modelo de aprendizaje automático.



      MATRIZ DE CONFUSIÓN

      Un método para visualizar los resultados reales de un problema de clasificación.



      EXACTITUD

      Una medida de la frecuencia con la que cada clasificación se considera positiva o negativa desde el punto de vista correcto.



      PRECISIÓN

      Una medida de la frecuencia con la que los positivos identificados por el modelo de aprendizaje son verdaderos positivos.



      RECUPERACIÓN

      Una medida del porcentaje de instancias positivas encontradas por un modelo de aprendizaje automático en comparación con todas las instancias relevantes.



      SENSIBILIDAD

      Consulte Recuperación.



      ESPECIFICIDAD

      Una medida de la frecuencia con la que un modelo de aprendizaje automático identifica correctamente todas las instancias negativas reales.



      TNR

      (tasa de verdaderos negativos) Consulte Especificidad.



      PUNTUACIÓN F1

      El promedio ponderado (media armónica) tanto de precisión como de recuperación.



      REGRESIÓN LINEAL

      Tipo de análisis de regresión en el que existe una relación lineal entre una variable independiente y una dependiente.



      MATRIZ

      Una manera de representar una o más dimensiones de datos, normalmente números organizados en filas y columnas.



      MATRIZ DE IDENTIDAD

      Matriz de todos los ceros excepto la diagonal principal, que consta de los unos.



      ECUACIÓN NORMAL

      Una solución de forma cerrada a problemas de regresión lineal.



      SERIE TEMPORAL

      Una representación de datos en la que las observaciones se ordenan según un cambio secuencial en el tiempo.



      PRONÓSTICO

      Una tarea que involucra realizar predicciones sobre eventos futuros con base en el análisis de eventos pasados relevantes.



      FUNCIÓN DE COSTO

      Una función que intenta cuantificar el error entre los valores estimados y los valores de entrenamiento etiquetados reales.



      REGULARIZACIÓN

      La técnica de simplificar un modelo de aprendizaje automático mediante la restricción de sus parámetros, lo que ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento.



      REGRESIÓN DE CRESTA

      Una técnica de regularización que utiliza una norma ℓ2 para restringir las características utilizadas para entrenar un modelo.



      REGRESIÓN DE LAZO

      Una técnica de regularización que utiliza una norma ℓ1 para reducir las características irrelevantes a 0 al entrenar un modelo.



      REGRESIÓN DE RED ELÁSTICA

      Una técnica de regularización que utiliza un promedio ponderado de regresión de cresta y lazo al entrenar un modelo.



      COLINEALIDAD

      Consulte Multicolinealidad.



      MULTICOLINEALIDAD

      La propiedad que describe varias variables como si exhibieran una relación lineal.



      RMSE

      (raíz del error cuadrático medio) La raíz cuadrada del MSE.



      MSE

      (error cuadrático medio) Una función de costo que calcula la raíz cuadrada del error entre los valores estimados y reales y, a continuación, calcula el promedio de todos los cuadrados.



      MAE

      (error absoluto medio) Una función de costo que calcula la diferencia promedio entre los valores estimados y reales sin tener en cuenta el signo de esos valores.



      COEFICIENTE DE DETERMINACIÓN

      Una medida estadística que indica cuánto de la varianza de una variable dependiente puede explicar un modelo estadístico.



      R2

      Consulte Coeficiente de determinación.



      PARÁMETRO

      En el aprendizaje automático, un valor configurable que tiene un efecto directo en este proceso. Consulte Parámetro del modelo e Hiperparámetro.



      AGRUPACIÓN EN CLÚSTERES K-MEANS

      Tipo de algoritmo de agrupación en clústeres que actualiza de forma iterativa los centroides de clúster en función del valor medio de cada ejemplo de datos del clúster del centroide.



      LCA

      (análisis de clases latentes) Una forma de aprendizaje no supervisado que agrupa ejemplos de datos en grupos no observables denominados clases latentes.



      PUNTO DE INTERSECCIÓN

      En la agrupación en clústeres, el punto en el que la distancia media entre cada ejemplo de datos y su centroide asociado ya no disminuye de forma significativa.



      BCSS

      (suma de cuadrados entre clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la separación entre clústeres.



      WCSS

      (suma de cuadrados dentro de los clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la compacidad de los clústeres.



      ANÁLISIS DE SILUETA

      Un método para calcular en qué medida encaja un ejemplo de datos determinado dentro de un clúster en comparación con sus clústeres vecinos.



      HIPAA

      (Ley de Portabilidad y Responsabilidad del Seguro Médico) Una ley promulgada en 1996 para establecer varias reglas y regulaciones con respecto a la atención médica en los Estados Unidos.



      RGPD

      (Reglamento General de Protección de Datos) Un reglamento de la Unión Europea que regula la exportación de datos personales de ciudadanos de la UE para entidades que recopilan o procesan estos datos, incluso si dichas entidades no tienen su sede en la UE.



      CCPA

      (Ley de Privacidad del Consumidor de California) Una ley que protege la privacidad de los datos y los derechos de acceso de los ciudadanos de California.



      PCI DSS

      (Estándar de Seguridad de Datos de la Industria de Tarjetas de Pago) Un estándar propietario que especifica cómo las organizaciones deben manejar la seguridad de la información de las principales marcas de tarjetas para aumentar los controles sobre los datos de los titulares de tarjetas y reducir el uso fraudulento de cuentas.



      PII

      (información de identificación personal) Datos que deben protegerse para garantizar la privacidad de las personas descritas por esos datos.



      ANONIMIZACIÓN

      La práctica de enmascaramiento de la identidad asociada a los datos personales para que estos puedan procesarse y analizarse sin revelar quién es la persona asociada a esos datos.



      SESGO DEL OBSERVADOR

      Un fenómeno que ocurre cuando tratamos las nociones preconcebidas como experiencia y permitimos que esas nociones nos lleven a ver lo que esperamos o queremos ver.



      SESGO DE PREJUICIO

      Un error en el análisis de datos, que se introduce cuando los datos de entrenamiento están influenciados por estereotipos culturales o de otro tipo, lo que resulta en un modelo defectuoso.



      INTERPRETABILIDAD LOCAL

      Una medida de los procesos de toma de decisiones en un modelo aplicado a ejemplos de datos específicos.



      INTERPRETABILIDAD GLOBAL

      Un método para medir los procesos generales de toma de decisiones de un modelo.



      IMPLEMENTACIÓN

      El proceso de transferencia de una solución de AA al personal de desarrollo de software para que se pueda integrar en una solución de producción.



      CÓDIGO DE PEGAMENTO

      Las instrucciones de programación que conectan una solución de AA a otras aplicaciones en una situación de implementación.



      PLATAFORMA DE PRUEBA UNITARIA

      Un conjunto de herramientas de desarrollo de software que admite la escritura y ejecución de pruebas unitarias y la confección de informes con base en los resultados de dichas pruebas.



      PRUEBA UNITARIA

      Una forma de prueba de software que comprueba la funcionalidad del fragmento de código más pequeño que se puede aislar lógicamente en un sistema. Por lo general, la realiza el desarrollador de la unidad objeto de prueba.



      PRUEBA DE INTEGRACIÓN

      Una forma de prueba de software que verifica la funcionalidad de un grupo de componentes de software independientes, asegurándose de que funcionan juntos según lo diseñado. Por lo general, la realizan los desarrolladores de los componentes objeto de prueba.



      PRUEBA DEL SISTEMA

      Una forma de prueba de software que verifica la funcionalidad de una aplicación, con todos los componentes integrados, para verificar que cumple con todos los requisitos principales definidos para el software y que su rendimiento está optimizado. Por lo general, la realiza todo el equipo de desarrollo de software o un subconjunto seleccionado de dicho equipo.



      PRUEBA DE ACEPTACIÓN

      Una forma de prueba de software que comprueba que una aplicación cumple los requisitos establecidos y que está lista para su lanzamiento a usuarios y clientes. Se puede realizar en versiones beta del software. Por lo general, la realizan probadores de control de calidad (QA) o usuarios finales seleccionados.