Glossary

0-9

2-stage detector 9-layer network 5G + AI 0-shot learning 6DoF pose estimation 3D convolution 8-bit quantization 7D representation 1-shot learning 4D data

A

Algorithm Autoencoder AGI / Artificial General Intelligence Attention Artificial Intelligence (AI)

B

BERT Batch Normalization Backpropagation Bias Boosting

C

Chatbot Classifier / Classification CNN / Convolutional Neural Network Cross-Validation Clustering

D

Deterministic Model Discriminative Model Deepfake Data Augmentation Deep Learning

E

Epoch Encoder Ensemble Learning Embedding Explainable AI (XAI)

F

Foundation Model Feature Extraction Fusion / Multimodal Fusion Forward Propagation Fine-tuning

G

GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding Graph Neural Network (GNN)

H

Hyperparameter Hidden Layer Hallucination Heuristic Hierarchical Model

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Joint Embedding JSONL / JSON-lines Juxtaposition Jittering

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Large Language Model (LLM)Latent Variable Loss Function Learning Rate LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Optimizer Online Learning Objective Function Overfitting One-hot Encoding

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Quality Estimation Quantization Q-learning Queue / Buffer

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sampling Sequence Modeling Softmax

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Unsupervised Learning Uncertainty Estimation Underfitting Universal Approximation Theorem U-Net

V

Variational Autoencoder (VAE)Vector Embedding Validation Set Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zygosity in augmentation Zero-gradient phenomenon

Qu'est-ce que le Gradient Disparaissant / Explosif

Les concepts de Gradient Disparaissant et de Gradient Explosif sont cruciaux dans le contexte de l'apprentissage profond et de la formation de réseaux de neurones.

Le Gradient Disparaissant fait référence à la situation où les gradients deviennent extrêmement petits pendant la rétropropagation, ce qui fait que les poids cessent de se mettre à jour. Ce phénomène est répandu dans les réseaux profonds, en particulier ceux utilisant des fonctions d'activation sigmoïde ou tanh, ce qui entraîne un apprentissage lent ou une stagnation.

En revanche, le Gradient Explosif se produit lorsque les gradients deviennent excessivement grands pendant la rétropropagation, entraînant des mises à jour de poids instables et une divergence du modèle. Cela est souvent observé dans des réseaux comportant de nombreuses couches, notamment lors de l'utilisation de fonctions d'activation ReLU.

Ces deux phénomènes ont un impact significatif sur l'efficacité et l'efficacité de l'entraînement des modèles d'apprentissage profond. Les chercheurs ont proposé diverses architectures comme LSTM pour atténuer les effets du Gradient Disparaissant et des techniques comme le clipping de gradient pour gérer le Gradient Explosif.

À mesure que l'apprentissage profond évolue, il devient de plus en plus crucial de traiter ces problèmes, avec de nouvelles fonctions d'activation et des conceptions de réseau visant à maintenir la stabilité des gradients.