Glossary

0-9

1-shot learning 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 2-stage detector 4D data 0-shot learning 9-layer network 3D convolution

A

AGI / Artificial General Intelligence Autoencoder Attention Algorithm Artificial Intelligence (AI)

B

Backpropagation BERT Boosting Batch Normalization Bias

C

Chatbot Clustering CNN / Convolutional Neural Network Cross-Validation Classifier / Classification

D

Deep Learning Deepfake Discriminative Model Deterministic Model Data Augmentation

E

Embedding Encoder Epoch Ensemble Learning Explainable AI (XAI)

F

Fine-tuning Fusion / Multimodal Fusion Forward Propagation Foundation Model Feature Extraction

G

GAN / Generative Adversarial Network Gradient Descent Grounding Graph Neural Network (GNN)Generative AI

H

Hyperparameter Heuristic Hidden Layer Hierarchical Model Hallucination

I

Imbalanced Data Interpretability Instruction tuning Instance / Sample Intelligence Amplification / Augmentation

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick Knowledge Distillation

L

Latent Variable Loss Function LSTM / Long Short-Term Memory Large Language Model (LLM)Learning Rate

M

Multimodal / Multimodality Machine Learning (ML)Meta-learning Model Multi-head Attention

N

Normalization Neural Network NLP / Natural Language Processing NLU / Natural Language Understanding Novelty Detection / Anomaly Detection

O

Objective Function Online Learning One-hot Encoding Overfitting Optimizer

P

Policy / Reinforcement Learning Policy Pooling Pretraining Prompt Parameter

Q

Queue / Buffer Quantization Q-learning Query Quality Estimation

R

Retrieval Augmented Generation (RAG)Representation Learning Reinforcement Learning (RL)Regularization RNN / Recurrent Neural Network

S

Supervised Learning Self-Supervised Learning Sequence Modeling Sampling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Universal Approximation Theorem Unsupervised Learning U-Net Underfitting Uncertainty Estimation

V

Variational Autoencoder (VAE)Vector Embedding Vanishing / Exploding Gradient Validation Set Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem X-axis / feature axis XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Z-score Normalization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Zygosity in augmentation

Multi-head Attention là gì

Multi-head Attention là một cơ chế được sử dụng rộng rãi trong học sâu, đặc biệt là trong xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính (CV). Nó được giới thiệu lần đầu tiên trong mô hình Transformer, cách mạng hóa các nhiệm vụ học từ chuỗi đến chuỗi. Ý tưởng cốt lõi của Multi-head Attention là chia các vector đặc trưng đầu vào thành nhiều không gian con và xử lý chúng song song thông qua nhiều 'đầu', từ đó nắm bắt các đặc trưng và mối quan hệ khác nhau trong dữ liệu đầu vào.

Cách hoạt động của Multi-head Attention bao gồm việc trước tiên biến đổi tuyến tính dữ liệu đầu vào thành nhiều nhóm, trong đó mỗi nhóm độc lập tính toán trọng số chú ý và tạo ra đầu ra. Cuối cùng, các đầu ra này được nối lại và trải qua một biến đổi tuyến tính khác để kết hợp chúng. Cơ chế này nâng cao sức mạnh biểu đạt và hiệu quả của mô hình.

Trong các kịch bản ứng dụng, Multi-head Attention được sử dụng trong các nhiệm vụ như dịch máy, tạo văn bản và nhận diện hình ảnh. Nhờ vào tính linh hoạt và hiệu quả của nó, nó đã trở thành một thành phần cốt lõi của nhiều mô hình học sâu hiện đại. Trong tương lai, với việc tăng cường tài nguyên tính toán và sự phát triển liên tục của các kiến trúc mô hình, Multi-head Attention dự kiến sẽ được áp dụng trong nhiều lĩnh vực hơn nữa.

Tuy nhiên, nó cũng có một số nhược điểm, chẳng hạn như chi phí tính toán cao, đặc biệt là khi xử lý các chuỗi dài, điều này có thể dẫn đến suy giảm hiệu suất. Do đó, cần phải xem xét các yếu tố này khi thiết kế mô hình.