Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

Artificial Intelligence (AI)Algorithm Attention Autoencoder AGI / Artificial General Intelligence

B

BERT Boosting Backpropagation Batch Normalization Bias

C

Classifier / Classification Cross-Validation Clustering CNN / Convolutional Neural Network Chatbot

D

Discriminative Model Deterministic Model Deep Learning Data Augmentation Deepfake

E

Epoch Encoder Ensemble Learning Explainable AI (XAI)Embedding

F

Foundation Model Forward Propagation Fusion / Multimodal Fusion Feature Extraction Fine-tuning

G

GAN / Generative Adversarial Network Grounding Generative AI Gradient Descent Graph Neural Network (GNN)

H

Hierarchical Model Hyperparameter Hallucination Heuristic Hidden Layer

I

Interpretability Instruction tuning Imbalanced Data Instance / Sample Intelligence Amplification / Augmentation

J

JAX JSONL / JSON-lines Juxtaposition Jittering Joint Embedding

K

K-Shot Learning Kernel Trick KL Divergence (Kullback–Leibler Divergence)Knowledge Distillation K-means Clustering

L

LSTM / Long Short-Term Memory Large Language Model (LLM)Latent Variable Loss Function Learning Rate

M

Multimodal / Multimodality Multi-head Attention Machine Learning (ML)Model Meta-learning

N

NLU / Natural Language Understanding Normalization Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing

O

One-hot Encoding Overfitting Objective Function Optimizer Online Learning

P

Prompt Parameter Pretraining Policy / Reinforcement Learning Policy Pooling

Q

Q-learning Query Queue / Buffer Quantization Quality Estimation

R

RNN / Recurrent Neural Network Representation Learning Retrieval Augmented Generation (RAG)Reinforcement Learning (RL)Regularization

S

Softmax Sampling Supervised Learning Sequence Modeling Self-Supervised Learning

T

Tokenizer Transformer Tuning / Hyperparameter Tuning Transfer Learning Training Data

U

U-Net Uncertainty Estimation Underfitting Universal Approximation Theorem Unsupervised Learning

V

Vision Transformer (ViT)Variational Autoencoder (VAE)Vector Embedding Vanishing / Exploding Gradient Validation Set

W

Weight Decay Word Embedding Workflow Whitening / Whitening Transformation Weak Supervision

X

X-axis / feature axis XLM XLNet XAI / Explainable AI XOR problem

Y

Yoga of AI Y-transform / YUV Yield (model yield / throughput)Y-axis / feature axis YAGNI (You Aren't Gonna Need It)

Z

Z-score Normalization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Zygosity in augmentation

什么是知识蒸馏

知识蒸馏是一种模型压缩和知识转移技术，主要用于将复杂模型（通常是深度学习模型）的知识提取并转移到一个较简单的模型中。其基本原理是通过训练一个小型模型（学生模型）去模仿一个大型模型（教师模型）的输出，从而在保持较高性能的同时减少计算资源的消耗。

这种技术的背景源于深度学习模型的复杂性不断增加，导致在推理时需要更多的计算资源。通过知识蒸馏，可以有效地减少模型的大小，提高其推理速度，同时在精度上尽量不降低太多。知识蒸馏的运作方式包括使用教师模型对训练数据生成软标签，然后用这些软标签来训练学生模型。

在典型场景中，知识蒸馏被广泛应用于图像识别、自然语言处理和语音识别等领域。例如，在图像分类任务中，一个大型卷积神经网络（CNN）可以被用作教师模型，而一个轻量级的网络则作为学生模型进行训练。未来趋势显示，随着AI模型的进一步复杂化，知识蒸馏的应用将愈加普遍，尤其是在移动设备和边缘计算设备上。

知识蒸馏的优点在于可以显著提高模型的推理速度和效率，同时降低内存占用。然而，它也有其缺点，例如在某些情况下，学生模型可能无法完全捕捉到教师模型的知识，导致性能损失。此外，选择合适的教师模型和学生模型架构也是实现成功蒸馏的关键。