CADENA DE RESPONSABILIDAD
Un registro de cada persona responsable de algún aspecto de un proyecto y cómo esas responsabilidades cambian de manos con el tiempo.
ACUERDO DE USO COMPARTIDO DE DATOS
Documento que describe la relación que tienen las organizaciones en cuanto al uso compartido de datos en uno o más proyectos.
REGISTRO DE INCIDENTES
Un registro de todos los supuestos o conocidos incidentes de seguridad de los que la organización ha sido objeto.
REGISTRO DE RIESGOS
Un documento que describe diferentes riesgos y su naturaleza.
PLAN DE SEGURIDAD
Documento que orienta cómo todo el personal relevante de una organización contribuye a la seguridad de uno o más sistemas.
ESCALADO DE INFERENCIA
El proceso de aumentar o disminuir los recursos disponibles para un sistema de IA en producción a medida que crece o se reduce la necesidad de predicciones y otras estimaciones.
SUPERVISIÓN DE SALUD
En el contexto de la IA, el proceso de evaluar continuamente una canalización de producción para cualquier problema que pueda afectar su capacidad para aportar valor.
DESVIACIÓN DEL MODELO
Consulte Desviación del concepto.
INFERENCIA
Consulte Estimación.
ESTIMACIÓN
La salida o la tarea prevista de un modelo de aprendizaje automático con base en el reconocimiento de patrones en los datos.
COLABORACIONES DE DATOS
Una asociación en la que las organizaciones acuerdan compartir datos entre sí para resolver un problema común.
PCA
(análisis de componentes principales) Un método de reducción de dimensionalidad que toma datos de alta dimensión y los proyecta en un espacio de dimensiones iguales o inferiores.
GAN
(red generativa antagónica) Una arquitectura de red neuronal que enfrenta dos redes neuronales diferentes entre sí, normalmente con el fin de generar imágenes.
CODIFICACIÓN DE ETIQUETAS
Un método de codificación en el que se asignan números incrementales a una etiqueta categórica a cada valor único de la categoría.
CODIFICACIÓN FICTICIA
Un método de codificación en el que una variable categórica se convierte en n #LioxSpecialChar8722# 1 columnas, donde n es el número de valores únicos de la variable categórica.
PRUEBA A/B
Un tipo de prueba de hipótesis que compara dos valores diferentes de la misma variable a fin de determinar qué valor es el más eficaz.
INTERPRETABILIDAD
Consulte Explicabilidad.
EXPLICABILIDAD
La propiedad por la cual se puede identificar y comunicar el funcionamiento interno de un sistema a una audiencia relevante.
ANÁLISIS DE REGRESIÓN
La técnica estadística de identificación de las relaciones entre variables.
APRENDIZ FUERTE
En el aumento de gradiente, un árbol de decisión que tiene una alta habilidad de clasificación debido a la combinación de las salidas de los aprendices más débiles.
APRENDIZ DÉBIL
En la optimización de gradiente, un árbol de decisión inicial que tiene baja habilidad de clasificación.
REGRESIÓN LOGÍSTICA MULTINOMIAL
Un algoritmo utilizado con frecuencia para resolver problemas de clasificación multiclase.
REGLA EMPÍRICA
Regla que describe los porcentajes de valores que se encuentran dentro de una, dos y tres desviaciones estándar de la media en una distribución normal.
DATOS REALES
Consulte Etiqueta.
VECTOR
Una matriz unidimensional.
DEFENSA EN PROFUNDIDAD
Un enfoque de varias capas para proteger datos, computadores y otros recursos.
FLEXIBLE
Una propiedad por la que un recurso necesita crecer o reducirse con el tiempo.
TERMINAL
Un programa que acepta comandos de texto.
FUNCIÓN
En programación, un fragmento de código que realiza una tarea específica y repetible.
CADENA
In tipo de datos utilizado por los lenguajes de programación para almacenar valores de texto.
ÍNDICE
En una base de datos relacional, una columna que se puede utilizar para optimizar la búsqueda y la clasificación de datos.
TIPO DE DATOS
Una clasificación de valores de datos que determina cómo se deben ejecutar esos valores.
SESGO SOCIAL
Un tipo de sesgo que se produce cuando los estereotipos afectan a los datos que se registran o introducen.
SESGO DE VARIABLE OMITIDA
Un tipo de sesgo que se produce cuando faltan características de datos críticas para producir resultados precisos.
SESGO DE DESVÍO
Consulte Desviación del concepto.
AUDITORÍA
El proceso de verificar que las actividades de una persona u organización cumplan los requisitos.
BASE DE DATOS RELACIONAL
Una colección de elementos de datos que presentan relaciones predefinidas, organizadas como columnas y filas en una tabla.
ANÁLISIS PREDICTIVO
Un campo de análisis estadístico que realiza predicciones sobre eventos futuros.
DESCUBRIMIENTO DE DATOS
El proceso de extraer información útil de grandes conjuntos de datos.
DATOS TRANSACCIONALES
Datos sobre eventos que implican algún tipo de intercambio, como la compra de un producto.
VISUALIZACIÓN DE DATOS
El proceso de traducir datos sin procesar en gráficos, tablas y otros objetos visuales.
PILA DE SOFTWARE
Colección de componentes de software que componen toda una plataforma.
VM
(máquina virtual) Software que simula la ejecución de un sistema informático físico completo.
REDUCCIÓN DE LA ESCALA
El proceso de reducción de recursos en un entorno con el fin de hacer frente a la disminución de la demanda.
AUMENTO DE LA ESCALA
El proceso de agregado de más recursos a un entorno con el fin de satisfacer el aumento de la demanda.
BIBLIOTECA
Una colección de código y otros recursos que los programadores pueden reutilizar en sus propios proyectos.
MATRIZ
En programación informática, una colección de elementos como valores y variables.
CÓDIGO ABIERTO
Una clasificación de software que indica que es gratuito para que cualquiera lo use, copie, distribuya y modifique.
AGENTE
En el aprendizaje por refuerzo, una máquina que intenta alcanzar metas en un entorno.
PROFESIONAL
Alguien que ejerce una profesión.
ANN
(red neuronal artificial) Una aproximación de la máquina a las redes neuronales biológicas. Se utiliza en el aprendizaje profundo.
CNN
(red neuronal convolucional) Un tipo de red neuronal artificial (ANN) utilizada con más frecuencia para procesar datos de píxeles.
RNN
(red neuronal recurrente) Un tipo de red neuronal artificial (ANN) en la que la información puede fluir hacia y desde las neuronas artificiales en un bucle, en lugar de una sola dirección.
FNN
(red neuronal prealimentada) Un tipo de red neuronal artificial (ANN) en la que la información fluye hacia y desde las neuronas artificiales en una sola dirección.
IA
(inteligencia artificial) La capacidad de las máquinas para exhibir inteligencia similar a la humana.
APRENDIZAJE AUTOMÁTICO
Un subconjunto de IA que se centra en el uso de máquinas, computadores y software, para aprender de un conjunto determinado de datos y hacer estimaciones en función de esos datos.
ALGORITMO
Un conjunto de reglas para llevar a cabo operaciones de resolución de problemas.
CIENCIA DE DATOS
La disciplina que implica acumular y analizar datos, extraer valor de dichos datos y presentar el valor de los datos de una manera significativa.
BIG DATA
Colecciones de datos que son tan grandes y complejos que requieren herramientas avanzadas para procesarlos y analizarlos.
BUSCADOR
Software que toma una consulta del usuario como entrada, identifica los recursos que coinciden con dicha consulta y comunica esos recursos al usuario.
PLN
(procesamiento del lenguaje natural) La disciplina que implica el análisis y aplicación de lenguajes humanos por parte de computadores.
VISIÓN ARTIFICIAL
La disciplina que implica la comprensión de imágenes y videos a un alto nivel por parte de los computadores.
ROBÓTICA
La disciplina que implica el estudio, el diseño y la operación de robots.
SESGO COGNITIVO
Una noción fuerte y preconcebida de alguien o algo, con base en la información que tenemos, creemos que tenemos o no tenemos.
ÉTICA
Los principios morales que rigen el comportamiento o las acciones de una persona.
SESGO
En general, una actitud positiva o negativa injustificada que se aplica a individuos, grupos o ideas. En el aprendizaje automático, un tipo de error que se produce cuando las estimaciones de un modelo son diferentes de los datos reales.
CAJA NEGRA
Mecanismo al que se proporcionan una o más entradas para producir una o más salidas, sin conocimiento ni visibilidad de su funcionamiento interno.
PENSAMIENTO DE DISEÑO
Un enfoque para la generación de ideas que se centra en las necesidades humanas y la innovación.
MODELO DE APRENDIZAJE AUTOMÁTICO
Una representación matemática del proceso o sistema que necesita para analizar o automatizar de alguna manera.
FLUJO DE TRABAJO DEL APRENDIZAJE AUTOMÁTICO
La secuencia de pasos o fases necesaria para desarrollar un modelo de aprendizaje automático.
CIENTÍFICO DE DATOS
Un profesional que es responsable de recopilar, analizar e interpretar cantidades extremadamente grandes de datos.
CONOCIMIENTOS ESPECIALIZADOS EN EL DOMINIO
Conocimiento y comprensión de temas y campos específicos.
A ESCALA
En el tamaño necesario para resolver el problema, por lo general se refiere al manejo de grandes volúmenes de algo después de las pruebas en un entorno más pequeño.
DESVIACIÓN DEL CONCEPTO
Un proceso que puede tener lugar cuando los patrones que se usaron inicialmente para entrenar un modelo de AA cambian con el tiempo, de tal manera que el modelo ya no funciona bien con datos nuevos.
APRENDIZAJE POR TRANSFERENCIA
El proceso de usar un modelo de AA existente como base para un modelo nuevo.
ENTRENAMIENTO
El proceso en el que un modelo de AA aprende de los datos de entrada.
RIESGO
La posibilidad de que algo malo o incorrecto pueda suceder.
MITIGACIÓN
La práctica de reducir la gravedad de algo, como un riesgo.
ÁMBITO
Una descripción de todos los aspectos de un proyecto, incluidas las restricciones, limitaciones o los límites establecidos en el proyecto para ayudar a definirlo.
PROGRESIÓN DEL ÁMBITO
Una condición que puede ocurrir cuando la falta de restricciones definidas de un proyecto hace que crezca más allá de la intención original, hasta que el proyecto ya no es sostenible o no cumple con las expectativas.
PARTE INTERESADA
Una persona o un grupo que tiene un interés en algo.
KPI
(indicador clave de rendimiento) Una métrica utilizada para evaluar el éxito de un proyecto o sus actividades.
FORMULACIÓN DE PROBLEMAS
El proceso de identificación de un problema que debe solucionarse y redactarse en términos que sean comprensibles y procesables.
APRENDIZAJE SUPERVISADO
Un tipo de aprendizaje automático en el que se proporcionan valores conocidos como entrada para que un modelo pueda estimar estos valores en conjuntos de datos futuros.
DIMENSIÓN
Un tipo de componente, como un ejemplo, una característica o una etiqueta, que se usa en un modelo de aprendizaje automático. O bien, el número total de características (columnas) que utiliza un modelo de AA.
EJEMPLO
En el campo del aprendizaje automático, una instancia individual de datos dentro de un conjunto de datos.
CARACTERÍSTICA
En el campo del aprendizaje automático, una propiedad medible de un ejemplo en un conjunto de entrenamiento.
ETIQUETA
En el campo del aprendizaje automático, la variable en un conjunto de entrenamiento que intenta predecir para nuevas muestras de datos.
APRENDIZAJE SIN SUPERVISIÓN
Un tipo de aprendizaje automático en el que los valores de etiqueta no se proporcionan como entrada, por lo que el modelo no tiene una variable explícita para estimar.
APRENDIZAJE SEMISUPERVISADO
Una combinación de aprendizaje supervisado y no supervisado, donde algunos pero no todos los valores de etiqueta se proporcionan como entrada.
APRENDIZAJE POR REFUERZO
Un tipo de aprendizaje automático en el que un agente de software intenta lograr una o más metas en un entorno.
AGRUPACIÓN EN CLÚSTERES
Un tipo de resultado de AA que coloca los ejemplos de datos en grupos en función de sus similitudes.
REGRESIÓN
Un tipo de resultado de AA que mide la relación entre las variables y genera una estimación para una variable numérica.
CLASIFICACIÓN
Un tipo de resultado de AA donde un ejemplo de datos se coloca en una o más categorías.
CENTROIDE
En un modelo de agrupación en clústeres, la media (promedio) de todos los puntos de datos que contiene el clúster, a lo largo de todas las características.
ESTOCÁSTICO
La propiedad por la cual un proceso determinado aleatoriamente no puede estimar a la perfección eventos individuales o puntos de datos, pero puede demostrar un patrón general común para todo el conjunto de datos.
PARALELIZACIÓN
División de tareas de procesamiento entre varios procesadores para escalar verticalmente el rendimiento de un entorno de aprendizaje automático.
GPU
(unidad de procesamiento de gráficos) El chip de computador se utiliza normalmente como componente principal en un adaptador de gráficos. Estos chips están optimizados para operaciones matriciales, lo que los hace muy adecuados para realizar muchas tareas de aprendizaje automático.
CPU
(unidad central de procesamiento) El chip de computador que funciona como el componente central en un computador de uso general.
OPERACIONES DE MATRIZ
El manejo simultáneo de todos los elementos de datos dentro de una estructura grande de datos.
TPU
(unidad de procesamiento tensorial) Un circuito integrado específico de la aplicación ofrecido por Google Cloud y diseñado para acelerar las tareas de procesamiento para el AA de redes neuronales.
PYTHON
Un lenguaje de programación interpretado de alto nivel, orientado a objetos con una sintaxis fácil de aprender, cercana al inglés, que enfatiza la legibilidad.
CONJUNTO DE DATOS
Una colección de datos que se utilizará directamente para lograr las metas establecidas en las especificaciones del proyecto.
DATOS NO ESTRUCTURADOS
Datos que están en un formato que dificulta la búsqueda, el filtrado o la extracción de dichos datos.
DATOS ESTRUCTURADOS
Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de esos datos.
DATOS SEMIESTRUCTURADOS
Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de algunos elementos de esos datos, mientras que otros no son tan fáciles de trabajar.
ATRIBUTO
Consulte Característica.
CONJUNTOS DE DATOS ABIERTOS
Una colección de datos externos que están disponibles sin cargo para su uso sin restricciones en cuanto a derechos de autor, patentes u otros mecanismos de control.
ETL
(extraer, transformar y cargar) El proceso de combinar datos de varias fuentes, prepararlos y cargar los datos resultantes en un formato de destino.
SESGO DE INFORME
Un tipo de sesgo que se produce cuando a los datos de entrenamiento les faltan observaciones no informadas.
SESGO DE DESGASTE
Un tipo de sesgo que se produce cuando los datos de entrenamiento excluyen a los participantes que abandonaron con el tiempo.
SESGO DE SELECCIÓN
Un tipo de sesgo que se produce cuando el conjunto de datos de entrenamiento no representa realmente la población a la que se aplicará el modelo.
DELIMITADOR
Un carácter que se ha elegido para separar los valores de datos en una fila. De forma predeterminada, en un archivo CSV, el delimitador es la coma.
NOSQL
Cualquier tecnología de base de datos que no represente datos como tablas relacionales.
SQL
(lenguaje de consulta estructurado) Lenguaje para crear, recuperar, modificar y eliminar datos en una base de datos relacional mediante programación.
AGREGACIÓN DE DATOS
El proceso donde se resumen los datos de algún tipo, a menudo para que pueda realizar un análisis estadístico de dichos datos.
CONSOLIDACIÓN DE DATOS
El proceso de combinar datos similares en una forma más simplificada que sea más propicia para su transformación y carga.
UNIR
El proceso de crear un nuevo conjunto de datos a partir de diferentes fuentes de datos.
DATOS ORIGINALES
Datos que se pueden colocar en un pedido.
DATOS CUALITATIVOS
Datos que contienen valores categóricos.
DATOS CUANTITATIVOS
Datos que contienen valores numéricos que representan la magnitud.
VARIABLE DISCRETA
Una variable cuantitativa cuyos valores son contables y limitados, porque hay una brecha definida entre cada valor en un rango de valores.
VARIABLE CONTINUA
Una variable cuantitativa cuyos valores son incontables y pueden extenderse infinitamente.
ANÁLISIS DE DATOS
El proceso de tomar datos como entrada y, a continuación, su representación en una determinada estructura o sintaxis.
CANALIZACIÓN
Un conjunto secuencial de procesos que automatizan el proceso de ciencia de datos mediante la introducción de la salida de un proceso en la entrada del siguiente proceso.
PREPARACIÓN DE LOS DATOS
El proceso de modificar los datos para que admitan de forma más eficaz tareas como el análisis y el modelado de datos.
LIMPIEZA DE DATOS
El proceso de localizar y abordar errores e inconsistencias en los datos.
DISPUTA DE DATOS
El proceso de transformar los datos en una forma utilizable.
ORGANIZACIÓN DE DATOS
Consulte Disputa de datos.
DESDUPLICACIÓN
El proceso de identificar y eliminar entradas duplicadas de un conjunto de datos.
CLAVE PRINCIPAL
Un identificador único que tiene un valor diferente para cada fila de un conjunto o fuente de datos.
CARGA DE DATOS
El proceso de poner datos limpios en un destino final donde el resto del proceso de análisis y modelado puede realizarse.
EXTREMO DE ETL
Un entorno de desarrollo que puede configurar y aprovisionar sobre la marcha para su uso con tareas de ETL.
ATAQUE A LA PRIVACIDAD
Un tipo de ataque que puede tener lugar durante el entrenamiento del modelo, antes de que la solución esté implementada y protegida por completo, y que abarca ataques como ransomware, la exposición de información privada y el robo de identidad.
AED
(análisis exploratorio de datos) Una tarea en la que el profesional de IA examina de cerca los datos para revelar nueva información.
CARACTERÍSTICA OBJETIVO
Una variable sobre la que está interesado en aprender más.
POBLACIÓN
En estadística, todas las observaciones individuales dentro del dominio del problema que se estudia.
MUESTRA
En estadística, cualquier subconjunto de una población.
DATOS REPRESENTATIVOS
En estadística, datos de muestra se aproximan de cerca a las características de la población en general.
MUESTREO ALEATORIO ESTRATIFICADO
Método de muestreo que divide una población en grupos más pequeños (o estratos) en función de atributos o características compartidos y, a continuación, selecciona miembros aleatoriamente de cada grupo.
CONJUNTO DE DATOS DESEQUILIBRADO
Colección de datos que tiene una frecuencia desproporcionada de cada valor en una variable categórica, en especial si es la variable de destino.
ERRORES
Valores incorrectos o faltantes en un conjunto de datos.
VALORES ATÍPICOS
Valores dentro de un conjunto de datos que se desvían en gran medida de la propagación principal de los demás valores del conjunto de datos.
APRENDIZAJE PROFUNDO
Un tipo de aprendizaje automático que toma decisiones mediante el uso de varias capas de información.
RUIDO
Datos irrelevantes o irregulares que se mezclan con datos relevantes.
CORRELACIÓN
Una asociación matemática entre dos variables.
ANÁLISIS ESTADÍSTICO DESCRIPTIVO
Tipo de análisis de datos que resume cuantitativamente los patrones y las relaciones de un conjunto de datos mediante el uso de varios cálculos matemáticos y visualizaciones. También puede referirse a un cálculo individual que forma parte de este análisis. A veces se conoce como estadística descriptiva (o resumida).
ESTADÍSTICAS DE RESUMEN
Consulte Análisis estadístico descriptivo.
DISTRIBUCIÓN DE FRECUENCIA
Un tipo de distribución que demuestra la frecuencia de los resultados para una muestra particular de una variable aleatoria.
DISTRIBUCIÓN DE PROBABILIDAD
Un tipo de distribución que demuestra la probabilidad de resultados para una muestra particular de una variable aleatoria.
DISTRIBUCIÓN NORMAL
Función que representa la distribución de una variable aleatoria como un gráfico simétrico en forma de campana.
GAUSSIANO
Tener la forma de una curva o una distribución normales.
UNIMODAL
Una distribución con un pico, o modo.
MULTIMODAL
Una distribución con más de un pico, o modo.
BIMODAL
Consulte Multimodal.
ASIMETRÍA
La propiedad de una distribución que tiene una alta densidad de valores distribuidos hacia el extremo inferior o superior del eje X.
TENDENCIA CENTRAL
Una medida como la media, la mediana o el modo destinado a identificar el valor típico en un conjunto de datos.
MEDIA ARITMÉTICA
El promedio de todos los números en un conjunto.
VARIABILIDAD
La propiedad que indica el grado en que los datos varían entre todos los valores de un conjunto de datos.
IQR
(rango intercuartílico) La mitad media de los valores de datos en una distribución.
DESVIACIÓN ESTÁNDAR
Una medida de variabilidad; la raíz cuadrada de la varianza.
VARIANZA
Una medida de la dispersión entre los números de un conjunto de datos o la variación de las estimaciones de un modelo entre conjuntos de datos.
CURTOSIS
Una medida de la forma de las colas de una distribución, que representa la ponderación combinada de las colas en relación con el centro de la distribución.
PLATICÚRTICO
Se utiliza para describir una curva de distribución que es plana, con colas ligeras en los lados derecho e izquierdo.
LEPTOCÚRTICO
Se utiliza para describir una curva de distribución que está agrupada hacia el centro, con colas pesadas en los lados derecho e izquierdo.
MESOCÚRTICO
Una distribución con colas de forma promedio o normal a la derecha y a la izquierda.
MOMENTO
Un conjunto de cuatro parámetros estadísticos utilizados con frecuencia para medir una distribución, que incluyen media, varianza, asimetría y curtosis.
MAPA GEOGRÁFICO
Tipo de gráfico que representa visualmente los puntos de datos en relación con una ubicación.
GRÁFICO DE BARRAS
Un tipo de gráfico que representa la medida proporcional de las variables categóricas mediante barras horizontales o verticales.
MAPA DE CALOR
Un tipo de gráfico que muestra diferentes tonos o intensidades de color en una matriz en función de los valores de datos en esa ubicación de la matriz.
GRÁFICO DE ÁREA
Un tipo de gráfico de líneas en el que el espacio debajo de la línea se rellena con algún color o textura.
GRÁFICO DE LÍNEAS
Una variante de un gráfico de dispersión en el que una serie de líneas conecta los puntos de datos en orden.
DIAGRAMA DE DISPERSIÓN
Un tipo de diagrama que representa la relación entre dos variables mediante el uso de puntos en un gráfico.
DIAGRAMA DE VIOLÍN
Un tipo de diagrama que muestra la distribución de un valor numérico a través de la densidad de la probabilidad.
DIAGRAMA DE CAJA
Un tipo de gráfico que representa la distribución de una variable numérica mediante el uso de estadísticas de resumen como cuartiles y mínimos y máximos.
HISTOGRAMA
Un tipo de gráfico que representa la distribución de probabilidad de una variable dada utilizando bins.
PREPROCESAMIENTO DE DATOS
La tarea de aplicar varias técnicas de transformación y codificación a los datos para que puedan ser interpretados y analizados por un algoritmo de aprendizaje automático.
IMPUTACIÓN
El proceso de rellenar los valores de datos que faltan que consiste en utilizar cálculos estadísticos para determinar cuáles deben ser los valores faltantes.
ESTANDARIZACIÓN
Una técnica en la que las características se escalan de modo que el valor medio sea 0 y la desviación estándar sea 1.
NORMALIZACIÓN
Una técnica en la que las características se escalan de modo que el valor inferior sea 0 y el valor superior sea 1.
DISEÑO DE LAS CARACTERÍSTICAS
La técnica que permite generar y extraer características de los datos para mejorar la capacidad de un modelo de aprendizaje automático para realizar estimaciones.
PUNTUACIÓN Z
El número de desviaciones estándar que una muestra está por encima o por debajo de la media de todos los valores de la muestra.
CODIFICACIÓN DE DATOS
El proceso de conversión de datos de un tipo determinado en un valor codificado de un tipo diferente.
CODIFICACIÓN ONE-HOT
El proceso de convertir una variable categórica no ordinal en dos o más variables constituyentes, donde, para cada ejemplo, todas las variables son 0 excepto una.
AGRUPAMIENTO DE DATOS
El proceso de discretizar una variable continua colocando sus valores dentro de intervalos específicos.
SELECCIÓN DE CARACTERÍSTICAS
Tipo de reducción de dimensionalidad en el que se selecciona un subconjunto de las características originales.
EXTRACCIÓN DE CARACTERÍSTICAS
Un tipo de reducción de dimensionalidad en el que se derivan nuevas características a partir de las características originales.
REDUCCIÓN DE DIMENSIONALIDAD
Una tarea que minimiza los elementos irrelevantes o innecesarios a partir de un conjunto de datos para mejorar el proceso de ciencia de datos.
MODELO DE APRENDIZAJE AUTOMÁTICO
Una implementación específica de un algoritmo que se usa para generar predicciones y otros resultados de toma de decisiones con base en algunos datos de entrenamiento.
HÁBIL
Se usa para describir un modelo que es útil para su tarea prevista. Existen grados de habilidad; algunos modelos son más útiles que otros. Mejorar la habilidad de un modelo es el objetivo final del proceso de ajuste iterativo.
SUBAJUSTE
Un problema en el aprendizaje automático en el que un modelo no puede realizar estimaciones efectivas debido a la incapacidad de identificar los patrones subyacentes en los datos. Un modelo de subajuste exhibe baja varianza y alto sesgo.
SOBREAJUSTE
Un problema en el aprendizaje automático en el que las estimaciones de un modelo se ajustan bien a los datos de entrenamiento, pero no se generalizan bien a otros datos. Un modelo de sobreajuste exhibe alta varianza y bajo sesgo.
GENERALIZACIÓN
La capacidad de un modelo para adaptarse correctamente a datos nuevos que no se habían visto antes.
ERROR IRREDUCIBLE
Errores que no se pueden reducir más al ajustar un modelo de aprendizaje automático, debido a la forma en que se enmarcó el problema, y causados por factores como características no utilizadas o desconocidas que tendrían un efecto en la salida si se hubieran utilizado.
RETENCIÓN
Un método para aumentar la generalización en un modelo, en el que el conjunto de datos original se divide en dos o tres subconjuntos: el conjunto de entrenamiento y el conjunto de pruebas, y un conjunto de validación opcional.
VALIDACIÓN CRUZADA ESTRATIFICADA DE K-MEANS
Un método de validación cruzada de k-means en el que cada iteración tiene una muestra representativa de datos en conjuntos de datos que presentan desequilibrio de clase.
VALIDACIÓN CRUZADA DE K-MEANS
Método de validación cruzada en el que el conjunto de datos se divide en k grupos (iteraciones). Un grupo es el conjunto de pruebas. Los grupos restantes conforman el conjunto de entrenamiento.
VALIDACIÓN CRUZADA
Un conjunto de métodos para crear particiones de datos de modo que un modelo pueda generalizarse a nuevos datos de prueba.
HIPERPARÁMETRO
Un parámetro que es externo a un modelo de aprendizaje automático (es decir, establecido en el propio algoritmo y no en el modelo de aprendizaje).
PARÁMETRO DEL MODELO
Un parámetro que es interno al modelo de aprendizaje automático (es decir que se deriva del modelo a medida que se somete al proceso de entrenamiento).
HIPÓTESIS
Un modelo de aprendizaje automático candidato que se crea para probar su rendimiento, en especial si puede producir el resultado que necesita.
VARIABLE DEPENDIENTE
En un experimento, la variable bajo estudio y que se ve afectada por una o más variables independientes.
VARIABLE INDEPENDIENTE
En un experimento, una variable que puede tener un efecto en la variable dependiente.
DOE
(diseño de experimentos) Un enfoque para la identificación, análisis y control de las variables utilizadas en un experimento. También conocido como diseño experimental o DOX.
DISEÑO EXPERIMENTAL
Consulte DOE.
HIPÓTESIS NULA
El supuesto de que no hay diferencias significativas desde el punto de vista estadístico entre los modelos bajo comparación.
VALOR P
La probabilidad de obtener un resultado de la prueba si la hipótesis nula es verdadera.
PRUEBA DE CHI CUADRADO
Un tipo de prueba de hipótesis que compara el efecto de las variables categóricas.
ANOVA
(análisis de varianza) Un tipo de prueba de hipótesis que compara la media de tres o más distribuciones.
PRUEBA Z
Un tipo de hipótesis de prueba que compara la media de dos distribuciones cuando se conoce la desviación estándar de una población.
PRUEBA T
Un tipo de hipótesis de prueba que compara la media de dos distribuciones en las que se desconoce la desviación estándar de una población.
INTERVALO DE CONFIANZA
Una medida que devuelve un rango de valores plausibles para alguna variable desconocida, como la media de la población.
REGRESIÓN LOGÍSTICA
Un tipo de análisis de regresión en el que la salida es una probabilidad de clasificación entre 0 y 1.
CLASIFICACIÓN BINARIA
Un tipo de tarea de clasificación que categoriza los datos como un 1 o 0 (es decir, solo hay dos opciones).
FUNCIÓN LOGÍSTICA
El valor entre 0 y 1 que genera un algoritmo de regresión logística, que toma una forma de S.
LÍMITE DE DECISIÓN
La línea de división que separa las clases negativas de las positivas en un problema de clasificación.
CLASIFICACIÓN MULTICLASE
Un problema de clasificación en el que un ejemplo de datos se puede colocar en una de tres o más clases.
HIPERPLANO
En SVM, un límite de decisión que tiene líneas o curvas paralelas y equidistantes a cada lado del límite.
SVM
(máquinas de vectores de soporte) Algoritmos de aprendizaje supervisados que se pueden utilizar para resolver problemas de clasificación y regresión separando valores de datos mediante un hiperplano.
CLASIFICACIÓN MULTIETIQUETA
Un problema de clasificación en el que a un ejemplo de datos se le pueden dar varias etiquetas.
K-NN
(k vecino más cercano) Un algoritmo utilizado con frecuencia para clasificar ejemplos de datos en función de sus similitudes con otros ejemplos de datos dentro del espacio de características.
NAÏVE BAYES
Un tipo de algoritmo de clasificación que calcula las probabilidades de clasificación mediante el teorema de Bayes.
ÁRBOL DE DECISIÓN
Una disposición de las declaraciones condicionales y sus conclusiones en una estructura rama-hoja.
APRENDIZAJE DE CONJUNTOS
Una aplicación de aprendizaje automático en el que las estimaciones de varios modelos se consideran juntas.
ÍNDICE DE GINI
Una métrica de división de árbol de decisión que divide los árboles en función de la "pureza" de los nodos de decisión mediante la cuadratura de la probabilidad de clase de cada característica.
CART
(árbol de clasificación y regresión) Un algoritmo de árbol de decisión de aprendizaje automático que usa el índice de Gini para la división de datos a fin de resolver problemas de clasificación o regresión.
BOSQUE ALEATORIO
Un método de aprendizaje de conjunto que agrega varios modelos de árbol de decisión y selecciona el clasificador o predictor óptimo.
AUMENTO DE GRADIENTE
Un método de aprendizaje de conjunto iterativo que construye varios árboles de decisión en sucesión, donde cada árbol intenta reducir los errores del anterior.
EMBOLSADO
(agregación de bootstrap) Una técnica de aprendizaje de conjuntos para el muestreo de datos con reemplazo.
MÉTRICA DE EVALUACIÓN
Un método para evaluar la habilidad, el rendimiento y las características de un modelo con base en una medición específica.
LEY DE GOODHART
Un principio que establece lo siguiente: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida". Se usa como recordatorio de no depender demasiado de una métrica o un pequeño número de métricas al evaluar el rendimiento del modelo de aprendizaje automático.
MATRIZ DE CONFUSIÓN
Un método para visualizar los resultados reales de un problema de clasificación.
EXACTITUD
Una medida de la frecuencia con la que cada clasificación se considera positiva o negativa desde el punto de vista correcto.
PRECISIÓN
Una medida de la frecuencia con la que los positivos identificados por el modelo de aprendizaje son verdaderos positivos.
RECUPERACIÓN
Una medida del porcentaje de instancias positivas encontradas por un modelo de aprendizaje automático en comparación con todas las instancias relevantes.
SENSIBILIDAD
Consulte Recuperación.
ESPECIFICIDAD
Una medida de la frecuencia con la que un modelo de aprendizaje automático identifica correctamente todas las instancias negativas reales.
TNR
(tasa de verdaderos negativos) Consulte Especificidad.
PUNTUACIÓN F1
El promedio ponderado (media armónica) tanto de precisión como de recuperación.
REGRESIÓN LINEAL
Tipo de análisis de regresión en el que existe una relación lineal entre una variable independiente y una dependiente.
MATRIZ
Una manera de representar una o más dimensiones de datos, normalmente números organizados en filas y columnas.
MATRIZ DE IDENTIDAD
Matriz de todos los ceros excepto la diagonal principal, que consta de los unos.
ECUACIÓN NORMAL
Una solución de forma cerrada a problemas de regresión lineal.
SERIE TEMPORAL
Una representación de datos en la que las observaciones se ordenan según un cambio secuencial en el tiempo.
PRONÓSTICO
Una tarea que involucra realizar predicciones sobre eventos futuros con base en el análisis de eventos pasados relevantes.
FUNCIÓN DE COSTO
Una función que intenta cuantificar el error entre los valores estimados y los valores de entrenamiento etiquetados reales.
REGULARIZACIÓN
La técnica de simplificar un modelo de aprendizaje automático mediante la restricción de sus parámetros, lo que ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento.
REGRESIÓN DE CRESTA
Una técnica de regularización que utiliza una norma ℓ2 para restringir las características utilizadas para entrenar un modelo.
REGRESIÓN DE LAZO
Una técnica de regularización que utiliza una norma ℓ1 para reducir las características irrelevantes a 0 al entrenar un modelo.
REGRESIÓN DE RED ELÁSTICA
Una técnica de regularización que utiliza un promedio ponderado de regresión de cresta y lazo al entrenar un modelo.
COLINEALIDAD
Consulte Multicolinealidad.
MULTICOLINEALIDAD
La propiedad que describe varias variables como si exhibieran una relación lineal.
RMSE
(raíz del error cuadrático medio) La raíz cuadrada del MSE.
MSE
(error cuadrático medio) Una función de costo que calcula la raíz cuadrada del error entre los valores estimados y reales y, a continuación, calcula el promedio de todos los cuadrados.
MAE
(error absoluto medio) Una función de costo que calcula la diferencia promedio entre los valores estimados y reales sin tener en cuenta el signo de esos valores.
COEFICIENTE DE DETERMINACIÓN
Una medida estadística que indica cuánto de la varianza de una variable dependiente puede explicar un modelo estadístico.
R2
Consulte Coeficiente de determinación.
PARÁMETRO
En el aprendizaje automático, un valor configurable que tiene un efecto directo en este proceso. Consulte Parámetro del modelo e Hiperparámetro.
AGRUPACIÓN EN CLÚSTERES K-MEANS
Tipo de algoritmo de agrupación en clústeres que actualiza de forma iterativa los centroides de clúster en función del valor medio de cada ejemplo de datos del clúster del centroide.
LCA
(análisis de clases latentes) Una forma de aprendizaje no supervisado que agrupa ejemplos de datos en grupos no observables denominados clases latentes.
PUNTO DE INTERSECCIÓN
En la agrupación en clústeres, el punto en el que la distancia media entre cada ejemplo de datos y su centroide asociado ya no disminuye de forma significativa.
BCSS
(suma de cuadrados entre clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la separación entre clústeres.
WCSS
(suma de cuadrados dentro de los clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la compacidad de los clústeres.
ANÁLISIS DE SILUETA
Un método para calcular en qué medida encaja un ejemplo de datos determinado dentro de un clúster en comparación con sus clústeres vecinos.
HIPAA
(Ley de Portabilidad y Responsabilidad del Seguro Médico) Una ley promulgada en 1996 para establecer varias reglas y regulaciones con respecto a la atención médica en los Estados Unidos.
RGPD
(Reglamento General de Protección de Datos) Un reglamento de la Unión Europea que regula la exportación de datos personales de ciudadanos de la UE para entidades que recopilan o procesan estos datos, incluso si dichas entidades no tienen su sede en la UE.
CCPA
(Ley de Privacidad del Consumidor de California) Una ley que protege la privacidad de los datos y los derechos de acceso de los ciudadanos de California.
PCI DSS
(Estándar de Seguridad de Datos de la Industria de Tarjetas de Pago) Un estándar propietario que especifica cómo las organizaciones deben manejar la seguridad de la información de las principales marcas de tarjetas para aumentar los controles sobre los datos de los titulares de tarjetas y reducir el uso fraudulento de cuentas.
PII
(información de identificación personal) Datos que deben protegerse para garantizar la privacidad de las personas descritas por esos datos.
ANONIMIZACIÓN
La práctica de enmascaramiento de la identidad asociada a los datos personales para que estos puedan procesarse y analizarse sin revelar quién es la persona asociada a esos datos.
SESGO DEL OBSERVADOR
Un fenómeno que ocurre cuando tratamos las nociones preconcebidas como experiencia y permitimos que esas nociones nos lleven a ver lo que esperamos o queremos ver.
SESGO DE PREJUICIO
Un error en el análisis de datos, que se introduce cuando los datos de entrenamiento están influenciados por estereotipos culturales o de otro tipo, lo que resulta en un modelo defectuoso.
INTERPRETABILIDAD LOCAL
Una medida de los procesos de toma de decisiones en un modelo aplicado a ejemplos de datos específicos.
INTERPRETABILIDAD GLOBAL
Un método para medir los procesos generales de toma de decisiones de un modelo.
IMPLEMENTACIÓN
El proceso de transferencia de una solución de AA al personal de desarrollo de software para que se pueda integrar en una solución de producción.
CÓDIGO DE PEGAMENTO
Las instrucciones de programación que conectan una solución de AA a otras aplicaciones en una situación de implementación.
PLATAFORMA DE PRUEBA UNITARIA
Un conjunto de herramientas de desarrollo de software que admite la escritura y ejecución de pruebas unitarias y la confección de informes con base en los resultados de dichas pruebas.
PRUEBA UNITARIA
Una forma de prueba de software que comprueba la funcionalidad del fragmento de código más pequeño que se puede aislar lógicamente en un sistema. Por lo general, la realiza el desarrollador de la unidad objeto de prueba.
PRUEBA DE INTEGRACIÓN
Una forma de prueba de software que verifica la funcionalidad de un grupo de componentes de software independientes, asegurándose de que funcionan juntos según lo diseñado. Por lo general, la realizan los desarrolladores de los componentes objeto de prueba.
PRUEBA DEL SISTEMA
Una forma de prueba de software que verifica la funcionalidad de una aplicación, con todos los componentes integrados, para verificar que cumple con todos los requisitos principales definidos para el software y que su rendimiento está optimizado. Por lo general, la realiza todo el equipo de desarrollo de software o un subconjunto seleccionado de dicho equipo.
PRUEBA DE ACEPTACIÓN
Una forma de prueba de software que comprueba que una aplicación cumple los requisitos establecidos y que está lista para su lanzamiento a usuarios y clientes. Se puede realizar en versiones beta del software. Por lo general, la realizan probadores de control de calidad (QA) o usuarios finales seleccionados.