Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

AGI / Artificial General Intelligence Artificial Intelligence (AI)Attention Algorithm Autoencoder

B

BERT Boosting Bias Backpropagation Batch Normalization

C

Cross-Validation Classifier / Classification CNN / Convolutional Neural Network Chatbot Clustering

D

Deepfake Discriminative Model Data Augmentation Deep Learning Deterministic Model

E

Epoch Explainable AI (XAI)Embedding Encoder Ensemble Learning

F

Forward Propagation Foundation Model Fine-tuning Feature Extraction Fusion / Multimodal Fusion

G

GAN / Generative Adversarial Network Grounding Graph Neural Network (GNN)Gradient Descent Generative AI

H

Hierarchical Model Hallucination Heuristic Hyperparameter Hidden Layer

I

Instruction tuning Imbalanced Data Instance / Sample Intelligence Amplification / Augmentation Interpretability

J

JAX JSONL / JSON-lines Juxtaposition Jittering Joint Embedding

K

K-Shot Learning Kernel Trick KL Divergence (Kullback–Leibler Divergence)K-means Clustering Knowledge Distillation

L

LSTM / Long Short-Term Memory Large Language Model (LLM)Learning Rate Loss Function Latent Variable

M

Meta-learning Multimodal / Multimodality Multi-head Attention Model Machine Learning (ML)

N

NLU / Natural Language Understanding Novelty Detection / Anomaly Detection Normalization Neural Network NLP / Natural Language Processing

O

One-hot Encoding Optimizer Objective Function Online Learning Overfitting

P

Prompt Pooling Parameter Policy / Reinforcement Learning Policy Pretraining

Q

Q-learning Quality Estimation Query Quantization Queue / Buffer

R

RNN / Recurrent Neural Network Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization Representation Learning

S

Softmax Sampling Sequence Modeling Supervised Learning Self-Supervised Learning

T

Tokenizer Transformer Training Data Tuning / Hyperparameter Tuning Transfer Learning

U

U-Net Uncertainty Estimation Underfitting Unsupervised Learning Universal Approximation Theorem

V

Vision Transformer (ViT)Vector Embedding Vanishing / Exploding Gradient Variational Autoencoder (VAE)Validation Set

W

Weight Decay Workflow Weak Supervision Whitening / Whitening Transformation Word Embedding

X

X-axis / feature axis XLM XLNet XAI / Explainable AI XOR problem

Y

YAGNI (You Aren't Gonna Need It)Yoga of AI Y-transform / YUV Y-axis / feature axis Yield (model yield / throughput)

Z

Z-score Normalization Zygosity in augmentation Zero-centric / Zero-bias initialization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference

什麼是知識蒸餾

知識蒸餾是一種模型壓縮和知識轉移技術，主要用於將複雜模型（通常是深度學習模型）的知識提取並轉移到一個較簡單的模型中。其基本原理是通過訓練一個小型模型（學生模型）去模仿一個大型模型（教師模型）的輸出，從而在保持較高性能的同時減少計算資源的消耗。

這種技術的背景源於深度學習模型的複雜性不斷增加，導致在推理時需要更多的計算資源。通過知識蒸餾，可以有效地減少模型的大小，提高其推理速度，同時在精度上盡量不降低太多。知識蒸餾的運作方式包括使用教師模型對訓練數據生成軟標籤，然後用這些軟標籤來訓練學生模型。

在典型場景中，知識蒸餾被廣泛應用於圖像識別、自然語言處理和語音識別等領域。例如，在圖像分類任務中，一個大型卷積神經網絡（CNN）可以被用作教師模型，而一個輕量級的網絡則作為學生模型進行訓練。未來趨勢顯示，隨著AI模型的進一步複雜化，知識蒸餾的應用將愈加普遍，尤其是在移動設備和邊緣計算設備上。

知識蒸餾的優點在於可以顯著提高模型的推理速度和效率，同時降低內存佔用。然而，它也有其缺點，例如在某些情況下，學生模型可能無法完全捕捉到教師模型的知識，導致性能損失。此外，選擇合適的教師模型和學生模型架構也是實現成功蒸餾的關鍵。