Ir al contenido principal

Diagrama de temas

    • Glosario - Inteligencia Artificial


      • Glosario


        CADENA DE RESPONSABILIDAD

        Un registro de cada persona responsable de algún aspecto de un proyecto y cómo esas responsabilidades cambian de manos con el tiempo.



        ACUERDO DE USO COMPARTIDO DE DATOS

        Documento que describe la relación que tienen las organizaciones en cuanto al uso compartido de datos en uno o más proyectos.



        REGISTRO DE INCIDENTES

        Un registro de todos los supuestos o conocidos incidentes de seguridad de los que la organización ha sido objeto.



        REGISTRO DE RIESGOS

        Un documento que describe diferentes riesgos y su naturaleza.



        PLAN DE SEGURIDAD

        Documento que orienta cómo todo el personal relevante de una organización contribuye a la seguridad de uno o más sistemas.



        ESCALADO DE INFERENCIA

        El proceso de aumentar o disminuir los recursos disponibles para un sistema de IA en producción a medida que crece o se reduce la necesidad de predicciones y otras estimaciones.



        SUPERVISIÓN DE SALUD

        En el contexto de la IA, el proceso de evaluar continuamente una canalización de producción para cualquier problema que pueda afectar su capacidad para aportar valor.



        DESVIACIÓN DEL MODELO

        Consulte Desviación del concepto.



        INFERENCIA

        Consulte Estimación.



        ESTIMACIÓN

        La salida o la tarea prevista de un modelo de aprendizaje automático con base en el reconocimiento de patrones en los datos.



        COLABORACIONES DE DATOS

        Una asociación en la que las organizaciones acuerdan compartir datos entre sí para resolver un problema común.



        PCA

        (análisis de componentes principales) Un método de reducción de dimensionalidad que toma datos de alta dimensión y los proyecta en un espacio de dimensiones iguales o inferiores.



        GAN

        (red generativa antagónica) Una arquitectura de red neuronal que enfrenta dos redes neuronales diferentes entre sí, normalmente con el fin de generar imágenes.



        CODIFICACIÓN DE ETIQUETAS

        Un método de codificación en el que se asignan números incrementales a una etiqueta categórica a cada valor único de la categoría.



        CODIFICACIÓN FICTICIA

        Un método de codificación en el que una variable categórica se convierte en n #LioxSpecialChar8722# 1 columnas, donde n es el número de valores únicos de la variable categórica.



        PRUEBA A/B

        Un tipo de prueba de hipótesis que compara dos valores diferentes de la misma variable a fin de determinar qué valor es el más eficaz.



        INTERPRETABILIDAD

        Consulte Explicabilidad.



        EXPLICABILIDAD

        La propiedad por la cual se puede identificar y comunicar el funcionamiento interno de un sistema a una audiencia relevante.



        ANÁLISIS DE REGRESIÓN

        La técnica estadística de identificación de las relaciones entre variables.



        APRENDIZ FUERTE

        En el aumento de gradiente, un árbol de decisión que tiene una alta habilidad de clasificación debido a la combinación de las salidas de los aprendices más débiles.



        APRENDIZ DÉBIL

        En la optimización de gradiente, un árbol de decisión inicial que tiene baja habilidad de clasificación.



        REGRESIÓN LOGÍSTICA MULTINOMIAL

        Un algoritmo utilizado con frecuencia para resolver problemas de clasificación multiclase.



        REGLA EMPÍRICA

        Regla que describe los porcentajes de valores que se encuentran dentro de una, dos y tres desviaciones estándar de la media en una distribución normal.



        DATOS REALES

        Consulte Etiqueta.



        VECTOR

        Una matriz unidimensional.



        DEFENSA EN PROFUNDIDAD

        Un enfoque de varias capas para proteger datos, computadores y otros recursos.



        FLEXIBLE

        Una propiedad por la que un recurso necesita crecer o reducirse con el tiempo.



        TERMINAL

        Un programa que acepta comandos de texto.



        FUNCIÓN

        En programación, un fragmento de código que realiza una tarea específica y repetible.



        CADENA

        In tipo de datos utilizado por los lenguajes de programación para almacenar valores de texto.



        ÍNDICE

        En una base de datos relacional, una columna que se puede utilizar para optimizar la búsqueda y la clasificación de datos.



        TIPO DE DATOS

        Una clasificación de valores de datos que determina cómo se deben ejecutar esos valores.



        SESGO SOCIAL

        Un tipo de sesgo que se produce cuando los estereotipos afectan a los datos que se registran o introducen.



        SESGO DE VARIABLE OMITIDA

        Un tipo de sesgo que se produce cuando faltan características de datos críticas para producir resultados precisos.



        SESGO DE DESVÍO

        Consulte Desviación del concepto.



        AUDITORÍA

        El proceso de verificar que las actividades de una persona u organización cumplan los requisitos.



        BASE DE DATOS RELACIONAL

        Una colección de elementos de datos que presentan relaciones predefinidas, organizadas como columnas y filas en una tabla.



        ANÁLISIS PREDICTIVO

        Un campo de análisis estadístico que realiza predicciones sobre eventos futuros.



        DESCUBRIMIENTO DE DATOS

        El proceso de extraer información útil de grandes conjuntos de datos.



        DATOS TRANSACCIONALES

        Datos sobre eventos que implican algún tipo de intercambio, como la compra de un producto.



        VISUALIZACIÓN DE DATOS

        El proceso de traducir datos sin procesar en gráficos, tablas y otros objetos visuales.



        PILA DE SOFTWARE

        Colección de componentes de software que componen toda una plataforma.



        VM

        (máquina virtual) Software que simula la ejecución de un sistema informático físico completo.



        REDUCCIÓN DE LA ESCALA

        El proceso de reducción de recursos en un entorno con el fin de hacer frente a la disminución de la demanda.



        AUMENTO DE LA ESCALA

        El proceso de agregado de más recursos a un entorno con el fin de satisfacer el aumento de la demanda.



        BIBLIOTECA

        Una colección de código y otros recursos que los programadores pueden reutilizar en sus propios proyectos.



        MATRIZ

        En programación informática, una colección de elementos como valores y variables.



        CÓDIGO ABIERTO

        Una clasificación de software que indica que es gratuito para que cualquiera lo use, copie, distribuya y modifique.



        AGENTE

        En el aprendizaje por refuerzo, una máquina que intenta alcanzar metas en un entorno.



        PROFESIONAL

        Alguien que ejerce una profesión.



        ANN

        (red neuronal artificial) Una aproximación de la máquina a las redes neuronales biológicas. Se utiliza en el aprendizaje profundo.



        CNN

        (red neuronal convolucional) Un tipo de red neuronal artificial (ANN) utilizada con más frecuencia para procesar datos de píxeles.



        RNN

        (red neuronal recurrente) Un tipo de red neuronal artificial (ANN) en la que la información puede fluir hacia y desde las neuronas artificiales en un bucle, en lugar de una sola dirección.



        FNN

        (red neuronal prealimentada) Un tipo de red neuronal artificial (ANN) en la que la información fluye hacia y desde las neuronas artificiales en una sola dirección.



        IA

        (inteligencia artificial) La capacidad de las máquinas para exhibir inteligencia similar a la humana.



        APRENDIZAJE AUTOMÁTICO

        Un subconjunto de IA que se centra en el uso de máquinas, computadores y software, para aprender de un conjunto determinado de datos y hacer estimaciones en función de esos datos.



        ALGORITMO

        Un conjunto de reglas para llevar a cabo operaciones de resolución de problemas.



        CIENCIA DE DATOS

        La disciplina que implica acumular y analizar datos, extraer valor de dichos datos y presentar el valor de los datos de una manera significativa.



        BIG DATA

        Colecciones de datos que son tan grandes y complejos que requieren herramientas avanzadas para procesarlos y analizarlos.



        BUSCADOR

        Software que toma una consulta del usuario como entrada, identifica los recursos que coinciden con dicha consulta y comunica esos recursos al usuario.



        PLN

        (procesamiento del lenguaje natural) La disciplina que implica el análisis y aplicación de lenguajes humanos por parte de computadores.



        VISIÓN ARTIFICIAL

        La disciplina que implica la comprensión de imágenes y videos a un alto nivel por parte de los computadores.



        ROBÓTICA

        La disciplina que implica el estudio, el diseño y la operación de robots.



        SESGO COGNITIVO

        Una noción fuerte y preconcebida de alguien o algo, con base en la información que tenemos, creemos que tenemos o no tenemos.



        ÉTICA

        Los principios morales que rigen el comportamiento o las acciones de una persona.



        SESGO

        En general, una actitud positiva o negativa injustificada que se aplica a individuos, grupos o ideas. En el aprendizaje automático, un tipo de error que se produce cuando las estimaciones de un modelo son diferentes de los datos reales.



        CAJA NEGRA

        Mecanismo al que se proporcionan una o más entradas para producir una o más salidas, sin conocimiento ni visibilidad de su funcionamiento interno.



        PENSAMIENTO DE DISEÑO

        Un enfoque para la generación de ideas que se centra en las necesidades humanas y la innovación.



        MODELO DE APRENDIZAJE AUTOMÁTICO

        Una representación matemática del proceso o sistema que necesita para analizar o automatizar de alguna manera.



        FLUJO DE TRABAJO DEL APRENDIZAJE AUTOMÁTICO

        La secuencia de pasos o fases necesaria para desarrollar un modelo de aprendizaje automático.



        CIENTÍFICO DE DATOS

        Un profesional que es responsable de recopilar, analizar e interpretar cantidades extremadamente grandes de datos.



        CONOCIMIENTOS ESPECIALIZADOS EN EL DOMINIO

        Conocimiento y comprensión de temas y campos específicos.



        A ESCALA

        En el tamaño necesario para resolver el problema, por lo general se refiere al manejo de grandes volúmenes de algo después de las pruebas en un entorno más pequeño.



        DESVIACIÓN DEL CONCEPTO

        Un proceso que puede tener lugar cuando los patrones que se usaron inicialmente para entrenar un modelo de AA cambian con el tiempo, de tal manera que el modelo ya no funciona bien con datos nuevos.



        APRENDIZAJE POR TRANSFERENCIA

        El proceso de usar un modelo de AA existente como base para un modelo nuevo.



        ENTRENAMIENTO

        El proceso en el que un modelo de AA aprende de los datos de entrada.



        RIESGO

        La posibilidad de que algo malo o incorrecto pueda suceder.



        MITIGACIÓN

        La práctica de reducir la gravedad de algo, como un riesgo.



        ÁMBITO

        Una descripción de todos los aspectos de un proyecto, incluidas las restricciones, limitaciones o los límites establecidos en el proyecto para ayudar a definirlo.



        PROGRESIÓN DEL ÁMBITO

        Una condición que puede ocurrir cuando la falta de restricciones definidas de un proyecto hace que crezca más allá de la intención original, hasta que el proyecto ya no es sostenible o no cumple con las expectativas.



        PARTE INTERESADA

        Una persona o un grupo que tiene un interés en algo.



        KPI

        (indicador clave de rendimiento) Una métrica utilizada para evaluar el éxito de un proyecto o sus actividades.



        FORMULACIÓN DE PROBLEMAS

        El proceso de identificación de un problema que debe solucionarse y redactarse en términos que sean comprensibles y procesables.



        APRENDIZAJE SUPERVISADO

        Un tipo de aprendizaje automático en el que se proporcionan valores conocidos como entrada para que un modelo pueda estimar estos valores en conjuntos de datos futuros.



        DIMENSIÓN

        Un tipo de componente, como un ejemplo, una característica o una etiqueta, que se usa en un modelo de aprendizaje automático. O bien, el número total de características (columnas) que utiliza un modelo de AA.



        EJEMPLO

        En el campo del aprendizaje automático, una instancia individual de datos dentro de un conjunto de datos.



        CARACTERÍSTICA

        En el campo del aprendizaje automático, una propiedad medible de un ejemplo en un conjunto de entrenamiento.



        ETIQUETA

        En el campo del aprendizaje automático, la variable en un conjunto de entrenamiento que intenta predecir para nuevas muestras de datos.



        APRENDIZAJE SIN SUPERVISIÓN

        Un tipo de aprendizaje automático en el que los valores de etiqueta no se proporcionan como entrada, por lo que el modelo no tiene una variable explícita para estimar.



        APRENDIZAJE SEMISUPERVISADO

        Una combinación de aprendizaje supervisado y no supervisado, donde algunos pero no todos los valores de etiqueta se proporcionan como entrada.



        APRENDIZAJE POR REFUERZO

        Un tipo de aprendizaje automático en el que un agente de software intenta lograr una o más metas en un entorno.



        AGRUPACIÓN EN CLÚSTERES

        Un tipo de resultado de AA que coloca los ejemplos de datos en grupos en función de sus similitudes.



        REGRESIÓN

        Un tipo de resultado de AA que mide la relación entre las variables y genera una estimación para una variable numérica.



        CLASIFICACIÓN

        Un tipo de resultado de AA donde un ejemplo de datos se coloca en una o más categorías.



        CENTROIDE

        En un modelo de agrupación en clústeres, la media (promedio) de todos los puntos de datos que contiene el clúster, a lo largo de todas las características.



        ESTOCÁSTICO

        La propiedad por la cual un proceso determinado aleatoriamente no puede estimar a la perfección eventos individuales o puntos de datos, pero puede demostrar un patrón general común para todo el conjunto de datos.



        PARALELIZACIÓN

        División de tareas de procesamiento entre varios procesadores para escalar verticalmente el rendimiento de un entorno de aprendizaje automático.



        GPU

        (unidad de procesamiento de gráficos) El chip de computador se utiliza normalmente como componente principal en un adaptador de gráficos. Estos chips están optimizados para operaciones matriciales, lo que los hace muy adecuados para realizar muchas tareas de aprendizaje automático.



        CPU

        (unidad central de procesamiento) El chip de computador que funciona como el componente central en un computador de uso general.



        OPERACIONES DE MATRIZ

        El manejo simultáneo de todos los elementos de datos dentro de una estructura grande de datos.



        TPU

        (unidad de procesamiento tensorial) Un circuito integrado específico de la aplicación ofrecido por Google Cloud y diseñado para acelerar las tareas de procesamiento para el AA de redes neuronales.



        PYTHON

        Un lenguaje de programación interpretado de alto nivel, orientado a objetos con una sintaxis fácil de aprender, cercana al inglés, que enfatiza la legibilidad.



        CONJUNTO DE DATOS

        Una colección de datos que se utilizará directamente para lograr las metas establecidas en las especificaciones del proyecto.



        DATOS NO ESTRUCTURADOS

        Datos que están en un formato que dificulta la búsqueda, el filtrado o la extracción de dichos datos.



        DATOS ESTRUCTURADOS

        Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de esos datos.



        DATOS SEMIESTRUCTURADOS

        Datos que están en un formato que facilita la búsqueda, el filtrado o la extracción de algunos elementos de esos datos, mientras que otros no son tan fáciles de trabajar.



        ATRIBUTO

        Consulte Característica.



        CONJUNTOS DE DATOS ABIERTOS

        Una colección de datos externos que están disponibles sin cargo para su uso sin restricciones en cuanto a derechos de autor, patentes u otros mecanismos de control.



        ETL

        (extraer, transformar y cargar) El proceso de combinar datos de varias fuentes, prepararlos y cargar los datos resultantes en un formato de destino.



        SESGO DE INFORME

        Un tipo de sesgo que se produce cuando a los datos de entrenamiento les faltan observaciones no informadas.



        SESGO DE DESGASTE

        Un tipo de sesgo que se produce cuando los datos de entrenamiento excluyen a los participantes que abandonaron con el tiempo.



        SESGO DE SELECCIÓN

        Un tipo de sesgo que se produce cuando el conjunto de datos de entrenamiento no representa realmente la población a la que se aplicará el modelo.



        DELIMITADOR

        Un carácter que se ha elegido para separar los valores de datos en una fila. De forma predeterminada, en un archivo CSV, el delimitador es la coma.



        NOSQL

        Cualquier tecnología de base de datos que no represente datos como tablas relacionales.



        SQL

        (lenguaje de consulta estructurado) Lenguaje para crear, recuperar, modificar y eliminar datos en una base de datos relacional mediante programación.



        AGREGACIÓN DE DATOS

        El proceso donde se resumen los datos de algún tipo, a menudo para que pueda realizar un análisis estadístico de dichos datos.



        CONSOLIDACIÓN DE DATOS

        El proceso de combinar datos similares en una forma más simplificada que sea más propicia para su transformación y carga.



        UNIR

        El proceso de crear un nuevo conjunto de datos a partir de diferentes fuentes de datos.



        DATOS ORIGINALES

        Datos que se pueden colocar en un pedido.



        DATOS CUALITATIVOS

        Datos que contienen valores categóricos.



        DATOS CUANTITATIVOS

        Datos que contienen valores numéricos que representan la magnitud.



        VARIABLE DISCRETA

        Una variable cuantitativa cuyos valores son contables y limitados, porque hay una brecha definida entre cada valor en un rango de valores.



        VARIABLE CONTINUA

        Una variable cuantitativa cuyos valores son incontables y pueden extenderse infinitamente.



        ANÁLISIS DE DATOS

        El proceso de tomar datos como entrada y, a continuación, su representación en una determinada estructura o sintaxis.



        CANALIZACIÓN

        Un conjunto secuencial de procesos que automatizan el proceso de ciencia de datos mediante la introducción de la salida de un proceso en la entrada del siguiente proceso.



        PREPARACIÓN DE LOS DATOS

        El proceso de modificar los datos para que admitan de forma más eficaz tareas como el análisis y el modelado de datos.



        LIMPIEZA DE DATOS

        El proceso de localizar y abordar errores e inconsistencias en los datos.



        DISPUTA DE DATOS

        El proceso de transformar los datos en una forma utilizable.



        ORGANIZACIÓN DE DATOS

        Consulte Disputa de datos.



        DESDUPLICACIÓN

        El proceso de identificar y eliminar entradas duplicadas de un conjunto de datos.



        CLAVE PRINCIPAL

        Un identificador único que tiene un valor diferente para cada fila de un conjunto o fuente de datos.



        CARGA DE DATOS

        El proceso de poner datos limpios en un destino final donde el resto del proceso de análisis y modelado puede realizarse.



        EXTREMO DE ETL

        Un entorno de desarrollo que puede configurar y aprovisionar sobre la marcha para su uso con tareas de ETL.



        ATAQUE A LA PRIVACIDAD

        Un tipo de ataque que puede tener lugar durante el entrenamiento del modelo, antes de que la solución esté implementada y protegida por completo, y que abarca ataques como ransomware, la exposición de información privada y el robo de identidad.



        AED

        (análisis exploratorio de datos) Una tarea en la que el profesional de IA examina de cerca los datos para revelar nueva información.



        CARACTERÍSTICA OBJETIVO

        Una variable sobre la que está interesado en aprender más.



        POBLACIÓN

        En estadística, todas las observaciones individuales dentro del dominio del problema que se estudia.



        MUESTRA

        En estadística, cualquier subconjunto de una población.



        DATOS REPRESENTATIVOS

        En estadística, datos de muestra se aproximan de cerca a las características de la población en general.



        MUESTREO ALEATORIO ESTRATIFICADO

        Método de muestreo que divide una población en grupos más pequeños (o estratos) en función de atributos o características compartidos y, a continuación, selecciona miembros aleatoriamente de cada grupo.



        CONJUNTO DE DATOS DESEQUILIBRADO

        Colección de datos que tiene una frecuencia desproporcionada de cada valor en una variable categórica, en especial si es la variable de destino.



        ERRORES

        Valores incorrectos o faltantes en un conjunto de datos.



        VALORES ATÍPICOS

        Valores dentro de un conjunto de datos que se desvían en gran medida de la propagación principal de los demás valores del conjunto de datos.



        APRENDIZAJE PROFUNDO

        Un tipo de aprendizaje automático que toma decisiones mediante el uso de varias capas de información.



        RUIDO

        Datos irrelevantes o irregulares que se mezclan con datos relevantes.



        CORRELACIÓN

        Una asociación matemática entre dos variables.



        ANÁLISIS ESTADÍSTICO DESCRIPTIVO

        Tipo de análisis de datos que resume cuantitativamente los patrones y las relaciones de un conjunto de datos mediante el uso de varios cálculos matemáticos y visualizaciones. También puede referirse a un cálculo individual que forma parte de este análisis. A veces se conoce como estadística descriptiva (o resumida).



        ESTADÍSTICAS DE RESUMEN

        Consulte Análisis estadístico descriptivo.



        DISTRIBUCIÓN DE FRECUENCIA

        Un tipo de distribución que demuestra la frecuencia de los resultados para una muestra particular de una variable aleatoria.



        DISTRIBUCIÓN DE PROBABILIDAD

        Un tipo de distribución que demuestra la probabilidad de resultados para una muestra particular de una variable aleatoria.



        DISTRIBUCIÓN NORMAL

        Función que representa la distribución de una variable aleatoria como un gráfico simétrico en forma de campana.



        GAUSSIANO

        Tener la forma de una curva o una distribución normales.



        UNIMODAL

        Una distribución con un pico, o modo.



        MULTIMODAL

        Una distribución con más de un pico, o modo.



        BIMODAL

        Consulte Multimodal.



        ASIMETRÍA

        La propiedad de una distribución que tiene una alta densidad de valores distribuidos hacia el extremo inferior o superior del eje X.



        TENDENCIA CENTRAL

        Una medida como la media, la mediana o el modo destinado a identificar el valor típico en un conjunto de datos.



        MEDIA ARITMÉTICA

        El promedio de todos los números en un conjunto.



        VARIABILIDAD

        La propiedad que indica el grado en que los datos varían entre todos los valores de un conjunto de datos.



        IQR

        (rango intercuartílico) La mitad media de los valores de datos en una distribución.



        DESVIACIÓN ESTÁNDAR

        Una medida de variabilidad; la raíz cuadrada de la varianza.



        VARIANZA

        Una medida de la dispersión entre los números de un conjunto de datos o la variación de las estimaciones de un modelo entre conjuntos de datos.



        CURTOSIS

        Una medida de la forma de las colas de una distribución, que representa la ponderación combinada de las colas en relación con el centro de la distribución.



        PLATICÚRTICO

        Se utiliza para describir una curva de distribución que es plana, con colas ligeras en los lados derecho e izquierdo.



        LEPTOCÚRTICO

        Se utiliza para describir una curva de distribución que está agrupada hacia el centro, con colas pesadas en los lados derecho e izquierdo.



        MESOCÚRTICO

        Una distribución con colas de forma promedio o normal a la derecha y a la izquierda.



        MOMENTO

        Un conjunto de cuatro parámetros estadísticos utilizados con frecuencia para medir una distribución, que incluyen media, varianza, asimetría y curtosis.



        MAPA GEOGRÁFICO

        Tipo de gráfico que representa visualmente los puntos de datos en relación con una ubicación.



        GRÁFICO DE BARRAS

        Un tipo de gráfico que representa la medida proporcional de las variables categóricas mediante barras horizontales o verticales.



        MAPA DE CALOR

        Un tipo de gráfico que muestra diferentes tonos o intensidades de color en una matriz en función de los valores de datos en esa ubicación de la matriz.



        GRÁFICO DE ÁREA

        Un tipo de gráfico de líneas en el que el espacio debajo de la línea se rellena con algún color o textura.



        GRÁFICO DE LÍNEAS

        Una variante de un gráfico de dispersión en el que una serie de líneas conecta los puntos de datos en orden.



        DIAGRAMA DE DISPERSIÓN

        Un tipo de diagrama que representa la relación entre dos variables mediante el uso de puntos en un gráfico.



        DIAGRAMA DE VIOLÍN

        Un tipo de diagrama que muestra la distribución de un valor numérico a través de la densidad de la probabilidad.



        DIAGRAMA DE CAJA

        Un tipo de gráfico que representa la distribución de una variable numérica mediante el uso de estadísticas de resumen como cuartiles y mínimos y máximos.



        HISTOGRAMA

        Un tipo de gráfico que representa la distribución de probabilidad de una variable dada utilizando bins.



        PREPROCESAMIENTO DE DATOS

        La tarea de aplicar varias técnicas de transformación y codificación a los datos para que puedan ser interpretados y analizados por un algoritmo de aprendizaje automático.



        IMPUTACIÓN

        El proceso de rellenar los valores de datos que faltan que consiste en utilizar cálculos estadísticos para determinar cuáles deben ser los valores faltantes.



        ESTANDARIZACIÓN

        Una técnica en la que las características se escalan de modo que el valor medio sea 0 y la desviación estándar sea 1.



        NORMALIZACIÓN

        Una técnica en la que las características se escalan de modo que el valor inferior sea 0 y el valor superior sea 1.



        DISEÑO DE LAS CARACTERÍSTICAS

        La técnica que permite generar y extraer características de los datos para mejorar la capacidad de un modelo de aprendizaje automático para realizar estimaciones.



        PUNTUACIÓN Z

        El número de desviaciones estándar que una muestra está por encima o por debajo de la media de todos los valores de la muestra.



        CODIFICACIÓN DE DATOS

        El proceso de conversión de datos de un tipo determinado en un valor codificado de un tipo diferente.



        CODIFICACIÓN ONE-HOT

        El proceso de convertir una variable categórica no ordinal en dos o más variables constituyentes, donde, para cada ejemplo, todas las variables son 0 excepto una.



        AGRUPAMIENTO DE DATOS

        El proceso de discretizar una variable continua colocando sus valores dentro de intervalos específicos.



        SELECCIÓN DE CARACTERÍSTICAS

        Tipo de reducción de dimensionalidad en el que se selecciona un subconjunto de las características originales.



        EXTRACCIÓN DE CARACTERÍSTICAS

        Un tipo de reducción de dimensionalidad en el que se derivan nuevas características a partir de las características originales.



        REDUCCIÓN DE DIMENSIONALIDAD

        Una tarea que minimiza los elementos irrelevantes o innecesarios a partir de un conjunto de datos para mejorar el proceso de ciencia de datos.



        MODELO DE APRENDIZAJE AUTOMÁTICO

        Una implementación específica de un algoritmo que se usa para generar predicciones y otros resultados de toma de decisiones con base en algunos datos de entrenamiento.



        HÁBIL

        Se usa para describir un modelo que es útil para su tarea prevista. Existen grados de habilidad; algunos modelos son más útiles que otros. Mejorar la habilidad de un modelo es el objetivo final del proceso de ajuste iterativo.



        SUBAJUSTE

        Un problema en el aprendizaje automático en el que un modelo no puede realizar estimaciones efectivas debido a la incapacidad de identificar los patrones subyacentes en los datos. Un modelo de subajuste exhibe baja varianza y alto sesgo.



        SOBREAJUSTE

        Un problema en el aprendizaje automático en el que las estimaciones de un modelo se ajustan bien a los datos de entrenamiento, pero no se generalizan bien a otros datos. Un modelo de sobreajuste exhibe alta varianza y bajo sesgo.



        GENERALIZACIÓN

        La capacidad de un modelo para adaptarse correctamente a datos nuevos que no se habían visto antes.



        ERROR IRREDUCIBLE

        Errores que no se pueden reducir más al ajustar un modelo de aprendizaje automático, debido a la forma en que se enmarcó el problema, y causados por factores como características no utilizadas o desconocidas que tendrían un efecto en la salida si se hubieran utilizado.



        RETENCIÓN

        Un método para aumentar la generalización en un modelo, en el que el conjunto de datos original se divide en dos o tres subconjuntos: el conjunto de entrenamiento y el conjunto de pruebas, y un conjunto de validación opcional.



        VALIDACIÓN CRUZADA ESTRATIFICADA DE K-MEANS

        Un método de validación cruzada de k-means en el que cada iteración tiene una muestra representativa de datos en conjuntos de datos que presentan desequilibrio de clase.



        VALIDACIÓN CRUZADA DE K-MEANS

        Método de validación cruzada en el que el conjunto de datos se divide en k grupos (iteraciones). Un grupo es el conjunto de pruebas. Los grupos restantes conforman el conjunto de entrenamiento.



        VALIDACIÓN CRUZADA

        Un conjunto de métodos para crear particiones de datos de modo que un modelo pueda generalizarse a nuevos datos de prueba.



        HIPERPARÁMETRO

        Un parámetro que es externo a un modelo de aprendizaje automático (es decir, establecido en el propio algoritmo y no en el modelo de aprendizaje).



        PARÁMETRO DEL MODELO

        Un parámetro que es interno al modelo de aprendizaje automático (es decir que se deriva del modelo a medida que se somete al proceso de entrenamiento).



        HIPÓTESIS

        Un modelo de aprendizaje automático candidato que se crea para probar su rendimiento, en especial si puede producir el resultado que necesita.



        VARIABLE DEPENDIENTE

        En un experimento, la variable bajo estudio y que se ve afectada por una o más variables independientes.



        VARIABLE INDEPENDIENTE

        En un experimento, una variable que puede tener un efecto en la variable dependiente.



        DOE

        (diseño de experimentos) Un enfoque para la identificación, análisis y control de las variables utilizadas en un experimento. También conocido como diseño experimental o DOX.



        DISEÑO EXPERIMENTAL

        Consulte DOE.



        HIPÓTESIS NULA

        El supuesto de que no hay diferencias significativas desde el punto de vista estadístico entre los modelos bajo comparación.



        VALOR P

        La probabilidad de obtener un resultado de la prueba si la hipótesis nula es verdadera.



        PRUEBA DE CHI CUADRADO

        Un tipo de prueba de hipótesis que compara el efecto de las variables categóricas.



        ANOVA

        (análisis de varianza) Un tipo de prueba de hipótesis que compara la media de tres o más distribuciones.



        PRUEBA Z

        Un tipo de hipótesis de prueba que compara la media de dos distribuciones cuando se conoce la desviación estándar de una población.



        PRUEBA T

        Un tipo de hipótesis de prueba que compara la media de dos distribuciones en las que se desconoce la desviación estándar de una población.



        INTERVALO DE CONFIANZA

        Una medida que devuelve un rango de valores plausibles para alguna variable desconocida, como la media de la población.



        REGRESIÓN LOGÍSTICA

        Un tipo de análisis de regresión en el que la salida es una probabilidad de clasificación entre 0 y 1.



        CLASIFICACIÓN BINARIA

        Un tipo de tarea de clasificación que categoriza los datos como un 1 o 0 (es decir, solo hay dos opciones).



        FUNCIÓN LOGÍSTICA

        El valor entre 0 y 1 que genera un algoritmo de regresión logística, que toma una forma de S.



        LÍMITE DE DECISIÓN

        La línea de división que separa las clases negativas de las positivas en un problema de clasificación.



        CLASIFICACIÓN MULTICLASE

        Un problema de clasificación en el que un ejemplo de datos se puede colocar en una de tres o más clases.



        HIPERPLANO

        En SVM, un límite de decisión que tiene líneas o curvas paralelas y equidistantes a cada lado del límite.



        SVM

        (máquinas de vectores de soporte) Algoritmos de aprendizaje supervisados que se pueden utilizar para resolver problemas de clasificación y regresión separando valores de datos mediante un hiperplano.



        CLASIFICACIÓN MULTIETIQUETA

        Un problema de clasificación en el que a un ejemplo de datos se le pueden dar varias etiquetas.



        K-NN

        (k vecino más cercano) Un algoritmo utilizado con frecuencia para clasificar ejemplos de datos en función de sus similitudes con otros ejemplos de datos dentro del espacio de características.



        NAÏVE BAYES

        Un tipo de algoritmo de clasificación que calcula las probabilidades de clasificación mediante el teorema de Bayes.



        ÁRBOL DE DECISIÓN

        Una disposición de las declaraciones condicionales y sus conclusiones en una estructura rama-hoja.



        APRENDIZAJE DE CONJUNTOS

        Una aplicación de aprendizaje automático en el que las estimaciones de varios modelos se consideran juntas.



        ÍNDICE DE GINI

        Una métrica de división de árbol de decisión que divide los árboles en función de la "pureza" de los nodos de decisión mediante la cuadratura de la probabilidad de clase de cada característica.



        CART

        (árbol de clasificación y regresión) Un algoritmo de árbol de decisión de aprendizaje automático que usa el índice de Gini para la división de datos a fin de resolver problemas de clasificación o regresión.



        BOSQUE ALEATORIO

        Un método de aprendizaje de conjunto que agrega varios modelos de árbol de decisión y selecciona el clasificador o predictor óptimo.



        AUMENTO DE GRADIENTE

        Un método de aprendizaje de conjunto iterativo que construye varios árboles de decisión en sucesión, donde cada árbol intenta reducir los errores del anterior.



        EMBOLSADO

        (agregación de bootstrap) Una técnica de aprendizaje de conjuntos para el muestreo de datos con reemplazo.



        MÉTRICA DE EVALUACIÓN

        Un método para evaluar la habilidad, el rendimiento y las características de un modelo con base en una medición específica.



        LEY DE GOODHART

        Un principio que establece lo siguiente: "Cuando una medida se convierte en un objetivo, deja de ser una buena medida". Se usa como recordatorio de no depender demasiado de una métrica o un pequeño número de métricas al evaluar el rendimiento del modelo de aprendizaje automático.



        MATRIZ DE CONFUSIÓN

        Un método para visualizar los resultados reales de un problema de clasificación.



        EXACTITUD

        Una medida de la frecuencia con la que cada clasificación se considera positiva o negativa desde el punto de vista correcto.



        PRECISIÓN

        Una medida de la frecuencia con la que los positivos identificados por el modelo de aprendizaje son verdaderos positivos.



        RECUPERACIÓN

        Una medida del porcentaje de instancias positivas encontradas por un modelo de aprendizaje automático en comparación con todas las instancias relevantes.



        SENSIBILIDAD

        Consulte Recuperación.



        ESPECIFICIDAD

        Una medida de la frecuencia con la que un modelo de aprendizaje automático identifica correctamente todas las instancias negativas reales.



        TNR

        (tasa de verdaderos negativos) Consulte Especificidad.



        PUNTUACIÓN F1

        El promedio ponderado (media armónica) tanto de precisión como de recuperación.



        REGRESIÓN LINEAL

        Tipo de análisis de regresión en el que existe una relación lineal entre una variable independiente y una dependiente.



        MATRIZ

        Una manera de representar una o más dimensiones de datos, normalmente números organizados en filas y columnas.



        MATRIZ DE IDENTIDAD

        Matriz de todos los ceros excepto la diagonal principal, que consta de los unos.



        ECUACIÓN NORMAL

        Una solución de forma cerrada a problemas de regresión lineal.



        SERIE TEMPORAL

        Una representación de datos en la que las observaciones se ordenan según un cambio secuencial en el tiempo.



        PRONÓSTICO

        Una tarea que involucra realizar predicciones sobre eventos futuros con base en el análisis de eventos pasados relevantes.



        FUNCIÓN DE COSTO

        Una función que intenta cuantificar el error entre los valores estimados y los valores de entrenamiento etiquetados reales.



        REGULARIZACIÓN

        La técnica de simplificar un modelo de aprendizaje automático mediante la restricción de sus parámetros, lo que ayuda al modelo a evitar el sobreajuste a los datos de entrenamiento.



        REGRESIÓN DE CRESTA

        Una técnica de regularización que utiliza una norma ℓ2 para restringir las características utilizadas para entrenar un modelo.



        REGRESIÓN DE LAZO

        Una técnica de regularización que utiliza una norma ℓ1 para reducir las características irrelevantes a 0 al entrenar un modelo.



        REGRESIÓN DE RED ELÁSTICA

        Una técnica de regularización que utiliza un promedio ponderado de regresión de cresta y lazo al entrenar un modelo.



        COLINEALIDAD

        Consulte Multicolinealidad.



        MULTICOLINEALIDAD

        La propiedad que describe varias variables como si exhibieran una relación lineal.



        RMSE

        (raíz del error cuadrático medio) La raíz cuadrada del MSE.



        MSE

        (error cuadrático medio) Una función de costo que calcula la raíz cuadrada del error entre los valores estimados y reales y, a continuación, calcula el promedio de todos los cuadrados.



        MAE

        (error absoluto medio) Una función de costo que calcula la diferencia promedio entre los valores estimados y reales sin tener en cuenta el signo de esos valores.



        COEFICIENTE DE DETERMINACIÓN

        Una medida estadística que indica cuánto de la varianza de una variable dependiente puede explicar un modelo estadístico.



        R2

        Consulte Coeficiente de determinación.



        PARÁMETRO

        En el aprendizaje automático, un valor configurable que tiene un efecto directo en este proceso. Consulte Parámetro del modelo e Hiperparámetro.



        AGRUPACIÓN EN CLÚSTERES K-MEANS

        Tipo de algoritmo de agrupación en clústeres que actualiza de forma iterativa los centroides de clúster en función del valor medio de cada ejemplo de datos del clúster del centroide.



        LCA

        (análisis de clases latentes) Una forma de aprendizaje no supervisado que agrupa ejemplos de datos en grupos no observables denominados clases latentes.



        PUNTO DE INTERSECCIÓN

        En la agrupación en clústeres, el punto en el que la distancia media entre cada ejemplo de datos y su centroide asociado ya no disminuye de forma significativa.



        BCSS

        (suma de cuadrados entre clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la separación entre clústeres.



        WCSS

        (suma de cuadrados dentro de los clústeres) Una métrica de evaluación del modelo de agrupación en clústeres que mide la compacidad de los clústeres.



        ANÁLISIS DE SILUETA

        Un método para calcular en qué medida encaja un ejemplo de datos determinado dentro de un clúster en comparación con sus clústeres vecinos.



        HIPAA

        (Ley de Portabilidad y Responsabilidad del Seguro Médico) Una ley promulgada en 1996 para establecer varias reglas y regulaciones con respecto a la atención médica en los Estados Unidos.



        RGPD

        (Reglamento General de Protección de Datos) Un reglamento de la Unión Europea que regula la exportación de datos personales de ciudadanos de la UE para entidades que recopilan o procesan estos datos, incluso si dichas entidades no tienen su sede en la UE.



        CCPA

        (Ley de Privacidad del Consumidor de California) Una ley que protege la privacidad de los datos y los derechos de acceso de los ciudadanos de California.



        PCI DSS

        (Estándar de Seguridad de Datos de la Industria de Tarjetas de Pago) Un estándar propietario que especifica cómo las organizaciones deben manejar la seguridad de la información de las principales marcas de tarjetas para aumentar los controles sobre los datos de los titulares de tarjetas y reducir el uso fraudulento de cuentas.



        PII

        (información de identificación personal) Datos que deben protegerse para garantizar la privacidad de las personas descritas por esos datos.



        ANONIMIZACIÓN

        La práctica de enmascaramiento de la identidad asociada a los datos personales para que estos puedan procesarse y analizarse sin revelar quién es la persona asociada a esos datos.



        SESGO DEL OBSERVADOR

        Un fenómeno que ocurre cuando tratamos las nociones preconcebidas como experiencia y permitimos que esas nociones nos lleven a ver lo que esperamos o queremos ver.



        SESGO DE PREJUICIO

        Un error en el análisis de datos, que se introduce cuando los datos de entrenamiento están influenciados por estereotipos culturales o de otro tipo, lo que resulta en un modelo defectuoso.



        INTERPRETABILIDAD LOCAL

        Una medida de los procesos de toma de decisiones en un modelo aplicado a ejemplos de datos específicos.



        INTERPRETABILIDAD GLOBAL

        Un método para medir los procesos generales de toma de decisiones de un modelo.



        IMPLEMENTACIÓN

        El proceso de transferencia de una solución de AA al personal de desarrollo de software para que se pueda integrar en una solución de producción.



        CÓDIGO DE PEGAMENTO

        Las instrucciones de programación que conectan una solución de AA a otras aplicaciones en una situación de implementación.



        PLATAFORMA DE PRUEBA UNITARIA

        Un conjunto de herramientas de desarrollo de software que admite la escritura y ejecución de pruebas unitarias y la confección de informes con base en los resultados de dichas pruebas.



        PRUEBA UNITARIA

        Una forma de prueba de software que comprueba la funcionalidad del fragmento de código más pequeño que se puede aislar lógicamente en un sistema. Por lo general, la realiza el desarrollador de la unidad objeto de prueba.



        PRUEBA DE INTEGRACIÓN

        Una forma de prueba de software que verifica la funcionalidad de un grupo de componentes de software independientes, asegurándose de que funcionan juntos según lo diseñado. Por lo general, la realizan los desarrolladores de los componentes objeto de prueba.



        PRUEBA DEL SISTEMA

        Una forma de prueba de software que verifica la funcionalidad de una aplicación, con todos los componentes integrados, para verificar que cumple con todos los requisitos principales definidos para el software y que su rendimiento está optimizado. Por lo general, la realiza todo el equipo de desarrollo de software o un subconjunto seleccionado de dicho equipo.



        PRUEBA DE ACEPTACIÓN

        Una forma de prueba de software que comprueba que una aplicación cumple los requisitos establecidos y que está lista para su lanzamiento a usuarios y clientes. Se puede realizar en versiones beta del software. Por lo general, la realizan probadores de control de calidad (QA) o usuarios finales seleccionados.