Glossary

0-9

1-shot learning 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 2-stage detector 4D data 0-shot learning 9-layer network 3D convolution

A

AGI / Artificial General Intelligence Autoencoder Attention Algorithm Artificial Intelligence (AI)

B

Backpropagation BERT Boosting Batch Normalization Bias

C

Chatbot Clustering CNN / Convolutional Neural Network Cross-Validation Classifier / Classification

D

Deep Learning Deepfake Discriminative Model Deterministic Model Data Augmentation

E

Embedding Encoder Epoch Ensemble Learning Explainable AI (XAI)

F

Fine-tuning Fusion / Multimodal Fusion Forward Propagation Foundation Model Feature Extraction

G

GAN / Generative Adversarial Network Gradient Descent Grounding Graph Neural Network (GNN)Generative AI

H

Hyperparameter Heuristic Hidden Layer Hierarchical Model Hallucination

I

Imbalanced Data Interpretability Instruction tuning Instance / Sample Intelligence Amplification / Augmentation

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick Knowledge Distillation

L

Latent Variable Loss Function LSTM / Long Short-Term Memory Large Language Model (LLM)Learning Rate

M

Multimodal / Multimodality Machine Learning (ML)Meta-learning Model Multi-head Attention

N

Normalization Neural Network NLP / Natural Language Processing NLU / Natural Language Understanding Novelty Detection / Anomaly Detection

O

Objective Function Online Learning One-hot Encoding Overfitting Optimizer

P

Policy / Reinforcement Learning Policy Pooling Pretraining Prompt Parameter

Q

Queue / Buffer Quantization Q-learning Query Quality Estimation

R

Retrieval Augmented Generation (RAG)Representation Learning Reinforcement Learning (RL)Regularization RNN / Recurrent Neural Network

S

Supervised Learning Self-Supervised Learning Sequence Modeling Sampling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Universal Approximation Theorem Unsupervised Learning U-Net Underfitting Uncertainty Estimation

V

Variational Autoencoder (VAE)Vector Embedding Vanishing / Exploding Gradient Validation Set Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem X-axis / feature axis XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Z-score Normalization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Zygosity in augmentation

Gradiente Biến Mất / Nổ Là Gì

Các khái niệm Gradiente Biến Mất và Gradiente Nổ rất quan trọng trong ngữ cảnh học sâu và đào tạo mạng nơ-ron.

Gradiente Biến Mất đề cập đến trường hợp mà các gradient trở nên cực kỳ nhỏ trong quá trình lan truyền ngược, khiến cho các trọng số ngừng cập nhật. Hiện tượng này phổ biến trong các mạng sâu, đặc biệt là những mạng sử dụng hàm kích hoạt sigmoid hoặc tanh, dẫn đến tốc độ học chậm hoặc ngừng lại.

Ngược lại, Gradiente Nổ xảy ra khi các gradient tăng trưởng quá mức trong quá trình lan truyền ngược, dẫn đến việc cập nhật trọng số không ổn định và mô hình không hội tụ. Điều này thường xảy ra ở các mạng có nhiều lớp, đặc biệt là khi sử dụng hàm kích hoạt ReLU.

Cả hai hiện tượng này đều ảnh hưởng đáng kể đến hiệu quả và hiệu suất của việc đào tạo các mô hình học sâu. Các nhà nghiên cứu đã đề xuất nhiều kiến trúc như LSTM để giảm thiểu tác động của Gradiente Biến Mất và các kỹ thuật như cắt gradient để xử lý Gradiente Nổ.

Khi học sâu tiến triển, việc giải quyết những vấn đề này ngày càng trở nên quan trọng, với các hàm kích hoạt và thiết kế mạng mới nhằm duy trì sự ổn định của gradient.