Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

Artificial Intelligence (AI)Algorithm Attention Autoencoder AGI / Artificial General Intelligence

B

BERT Boosting Backpropagation Batch Normalization Bias

C

Classifier / Classification Cross-Validation Clustering CNN / Convolutional Neural Network Chatbot

D

Discriminative Model Deterministic Model Deep Learning Data Augmentation Deepfake

E

Epoch Encoder Ensemble Learning Explainable AI (XAI)Embedding

F

Foundation Model Forward Propagation Fusion / Multimodal Fusion Feature Extraction Fine-tuning

G

GAN / Generative Adversarial Network Grounding Generative AI Gradient Descent Graph Neural Network (GNN)

H

Hierarchical Model Hyperparameter Hallucination Heuristic Hidden Layer

I

Interpretability Instruction tuning Imbalanced Data Instance / Sample Intelligence Amplification / Augmentation

J

JAX JSONL / JSON-lines Juxtaposition Jittering Joint Embedding

K

K-Shot Learning Kernel Trick KL Divergence (Kullback–Leibler Divergence)Knowledge Distillation K-means Clustering

L

LSTM / Long Short-Term Memory Large Language Model (LLM)Latent Variable Loss Function Learning Rate

M

Multimodal / Multimodality Multi-head Attention Machine Learning (ML)Model Meta-learning

N

NLU / Natural Language Understanding Normalization Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing

O

One-hot Encoding Overfitting Objective Function Optimizer Online Learning

P

Prompt Parameter Pretraining Policy / Reinforcement Learning Policy Pooling

Q

Q-learning Query Queue / Buffer Quantization Quality Estimation

R

RNN / Recurrent Neural Network Representation Learning Retrieval Augmented Generation (RAG)Reinforcement Learning (RL)Regularization

S

Softmax Sampling Supervised Learning Sequence Modeling Self-Supervised Learning

T

Tokenizer Transformer Tuning / Hyperparameter Tuning Transfer Learning Training Data

U

U-Net Uncertainty Estimation Underfitting Universal Approximation Theorem Unsupervised Learning

V

Vision Transformer (ViT)Variational Autoencoder (VAE)Vector Embedding Vanishing / Exploding Gradient Validation Set

W

Weight Decay Word Embedding Workflow Whitening / Whitening Transformation Weak Supervision

X

X-axis / feature axis XLM XLNet XAI / Explainable AI XOR problem

Y

Yoga of AI Y-transform / YUV Yield (model yield / throughput)Y-axis / feature axis YAGNI (You Aren't Gonna Need It)

Z

Z-score Normalization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Zygosity in augmentation

什么是多头注意力

多头注意力是一种在深度学习中被广泛使用的机制，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。它最初在Transformer模型中提出，变革了序列到序列的学习任务。多头注意力的核心思想是将输入特征向量分成多个子空间，通过多个“头”并行处理，从而捕捉输入数据中的不同特征和关系。

多头注意力的运作方式是，首先将输入数据通过线性变换分成多组，然后每组独立地计算注意力权重并生成输出。最后，这些输出会被连接并通过另一线性变换合并。这种机制增强了模型的表达能力和效率。

在应用场景方面，多头注意力被应用于机器翻译、文本生成和图像识别等任务中。由于其灵活性和高效性，它已经成为许多现代深度学习模型的核心组件之一。未来，随着计算资源的增加和模型架构的不断演进，多头注意力有望在更多领域得到应用。

然而，它也有一些缺点，例如在处理长序列时计算开销较大，可能导致性能下降。因此，在设计模型时需要考虑到这些因素。