Glossary

0-9

2-stage detector 9-layer network 5G + AI 0-shot learning 6DoF pose estimation 3D convolution 8-bit quantization 7D representation 1-shot learning 4D data

A

Algorithm Autoencoder AGI / Artificial General Intelligence Attention Artificial Intelligence (AI)

B

BERT Batch Normalization Backpropagation Bias Boosting

C

Chatbot Classifier / Classification CNN / Convolutional Neural Network Cross-Validation Clustering

D

Deterministic Model Discriminative Model Deepfake Data Augmentation Deep Learning

E

Epoch Encoder Ensemble Learning Embedding Explainable AI (XAI)

F

Foundation Model Feature Extraction Fusion / Multimodal Fusion Forward Propagation Fine-tuning

G

GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding Graph Neural Network (GNN)

H

Hyperparameter Hidden Layer Hallucination Heuristic Hierarchical Model

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Joint Embedding JSONL / JSON-lines Juxtaposition Jittering

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Large Language Model (LLM)Latent Variable Loss Function Learning Rate LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Optimizer Online Learning Objective Function Overfitting One-hot Encoding

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Quality Estimation Quantization Q-learning Queue / Buffer

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sampling Sequence Modeling Softmax

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Unsupervised Learning Uncertainty Estimation Underfitting Universal Approximation Theorem U-Net

V

Variational Autoencoder (VAE)Vector Embedding Validation Set Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zygosity in augmentation Zero-gradient phenomenon

Qu'est-ce que Multi-head Attention

Multi-head Attention est un mécanisme largement utilisé dans l'apprentissage profond, en particulier dans le traitement du langage naturel (NLP) et la vision par ordinateur (CV). Il a été initialement introduit dans le modèle Transformer, révolutionnant les tâches d'apprentissage séquence à séquence. L'idée centrale de Multi-head Attention est de diviser les vecteurs de caractéristiques d'entrée en plusieurs sous-espaces et de les traiter en parallèle à travers plusieurs 'têtes', capturant ainsi différentes caractéristiques et relations au sein des données d'entrée.

Le fonctionnement de Multi-head Attention implique d'abord de transformer linéairement les données d'entrée en plusieurs groupes, où chaque groupe calcule indépendamment les poids d'attention et génère des sorties. Enfin, ces sorties sont concaténées et passées par une autre transformation linéaire pour être fusionnées. Ce mécanisme améliore le pouvoir expressif et l'efficacité du modèle.

Dans les scénarios d'application, Multi-head Attention est utilisé dans des tâches telles que la traduction automatique, la génération de texte et la reconnaissance d'images. En raison de sa flexibilité et de son efficacité, il est devenu un composant central de nombreux modèles modernes d'apprentissage profond. À l'avenir, avec l'augmentation des ressources informatiques et l'évolution continue des architectures de modèles, on s'attend à ce que Multi-head Attention trouve des applications dans encore plus de domaines.

Cependant, il présente également certains inconvénients, comme un coût de calcul élevé, notamment lors du traitement de longues séquences, ce qui peut entraîner une dégradation des performances. Par conséquent, ces facteurs doivent être pris en compte lors de la conception de modèles.