Glossary

0-9

6DoF pose estimation 4D data 5G + AI 1-shot learning 0-shot learning 3D convolution 8-bit quantization 7D representation 2-stage detector 9-layer network

A

Artificial Intelligence (AI)AGI / Artificial General Intelligence Autoencoder Attention Algorithm

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Classifier / Classification CNN / Convolutional Neural Network Clustering Cross-Validation Chatbot

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Encoder Embedding Epoch Explainable AI (XAI)

F

Fine-tuning Fusion / Multimodal Fusion Feature Extraction Forward Propagation Foundation Model

G

GAN / Generative Adversarial Network Gradient Descent Grounding Generative AI Graph Neural Network (GNN)

H

Hierarchical Model Heuristic Hallucination Hidden Layer Hyperparameter

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

Juxtaposition Jittering JAX Joint Embedding JSONL / JSON-lines

K

K-Shot Learning Kernel Trick K-means Clustering Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)

L

Learning Rate Large Language Model (LLM)Loss Function Latent Variable LSTM / Long Short-Term Memory

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

NLP / Natural Language Processing Novelty Detection / Anomaly Detection NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Overfitting Optimizer

P

Pretraining Pooling Parameter Policy / Reinforcement Learning Policy Prompt

Q

Q-learning Queue / Buffer Quantization Quality Estimation Query

R

Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Representation Learning Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sequence Modeling Sampling Softmax

T

Tuning / Hyperparameter Tuning Tokenizer Training Data Transfer Learning Transformer

U

Unsupervised Learning Universal Approximation Theorem Underfitting Uncertainty Estimation U-Net

V

Vector Embedding Variational Autoencoder (VAE)Validation Set Vision Transformer (ViT)Vanishing / Exploding Gradient

W

Weight Decay Weak Supervision Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem XAI / Explainable AI X-axis / feature axis XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)YAGNI (You Aren't Gonna Need It)Y-transform / YUV Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

Qué es Multi-head Attention

Multi-head Attention es un mecanismo ampliamente utilizado en el aprendizaje profundo, especialmente en el procesamiento del lenguaje natural (NLP) y la visión por computadora (CV). Se introdujo inicialmente en el modelo Transformer, revolucionando las tareas de aprendizaje de secuencia a secuencia. La idea central de Multi-head Attention es dividir los vectores de características de entrada en múltiples subespacios y procesarlos en paralelo a través de múltiples 'cabezas', capturando diferentes características y relaciones dentro de los datos de entrada.

El funcionamiento de Multi-head Attention implica transformar linealmente los datos de entrada en varios grupos, donde cada grupo calcula de manera independiente los pesos de atención y genera salidas. Finalmente, estas salidas se concatenan y se pasan a través de otra transformación lineal para fusionarlas. Este mecanismo mejora el poder expresivo y la eficiencia del modelo.

En los escenarios de aplicación, Multi-head Attention se utiliza en tareas como traducción automática, generación de texto y reconocimiento de imágenes. Debido a su flexibilidad y eficiencia, se ha convertido en un componente central de muchos modelos modernos de aprendizaje profundo. En el futuro, se espera que Multi-head Attention encuentre aplicaciones en aún más campos, a medida que aumenten los recursos computacionales y evolucione la arquitectura de los modelos.

Sin embargo, también tiene algunas desventajas, como un alto costo computacional, especialmente al tratar con secuencias largas, lo que puede llevar a una degradación del rendimiento. Por lo tanto, es necesario considerar estos factores al diseñar modelos.