Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

AGI / Artificial General Intelligence Algorithm Autoencoder Artificial Intelligence (AI)Attention

B

BERT Backpropagation Batch Normalization Boosting Bias

C

CNN / Convolutional Neural Network Clustering Cross-Validation Chatbot Classifier / Classification

D

Deepfake Deep Learning Data Augmentation Deterministic Model Discriminative Model

E

Epoch Ensemble Learning Encoder Explainable AI (XAI)Embedding

F

Fine-tuning Forward Propagation Fusion / Multimodal Fusion Foundation Model Feature Extraction

G

GAN / Generative Adversarial Network Grounding Graph Neural Network (GNN)Gradient Descent Generative AI

H

Hyperparameter Heuristic Hidden Layer Hierarchical Model Hallucination

I

Instruction tuning Instance / Sample Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX JSONL / JSON-lines Jittering Joint Embedding Juxtaposition

K

K-Shot Learning K-means Clustering KL Divergence (Kullback–Leibler Divergence)Kernel Trick Knowledge Distillation

L

LSTM / Long Short-Term Memory Learning Rate Latent Variable Loss Function Large Language Model (LLM)

M

Multi-head Attention Multimodal / Multimodality Meta-learning Model Machine Learning (ML)

N

NLP / Natural Language Processing NLU / Natural Language Understanding Neural Network Novelty Detection / Anomaly Detection Normalization

O

One-hot Encoding Overfitting Optimizer Online Learning Objective Function

P

Pooling Parameter Pretraining Prompt Policy / Reinforcement Learning Policy

Q

Q-learning Queue / Buffer Query Quality Estimation Quantization

R

RNN / Recurrent Neural Network Retrieval Augmented Generation (RAG)Reinforcement Learning (RL)Regularization Representation Learning

S

Softmax Sampling Sequence Modeling Supervised Learning Self-Supervised Learning

T

Tuning / Hyperparameter Tuning Tokenizer Transformer Training Data Transfer Learning

U

U-Net Underfitting Universal Approximation Theorem Unsupervised Learning Uncertainty Estimation

V

Vision Transformer (ViT)Vector Embedding Validation Set Vanishing / Exploding Gradient Variational Autoencoder (VAE)

W

Weight Decay Whitening / Whitening Transformation Workflow Word Embedding Weak Supervision

X

XAI / Explainable AI XLM XLNet XOR problem X-axis / feature axis

Y

Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)Y-axis / feature axis Yield (model yield / throughput)

Z

Z-score Normalization Zero-shot Learning / Zero-shot inference Zero-gradient phenomenon Zero-centric / Zero-bias initialization Zygosity in augmentation

KLダイバージェンス（Kullback–Leiblerダイバージェンス）とは何か

Kullback-Leiblerダイバージェンス（KLダイバージェンス）は、情報理論および統計学における基本的な概念であり、2つの確率分布の違いを定量化します。これは、機械学習、統計、情報検索などの分野で広く使用されています。KLダイバージェンスの値が小さいほど、2つの分布は似ており、逆に値が大きいほど、それらの間の違いが大きくなります。

KLダイバージェンスの公式は次のように定義されます：
D_{KL}(P || Q) = ∑ P(i) log(P(i)/Q(i))、ここでPとQは2つの確率分布を表します。KLダイバージェンスは非負の確率分布に対して非負であり、PとQが完全に等しい場合にのみ0になります。KLダイバージェンスの顕著な特徴の1つは非対称性であり、D_{KL}(P || Q)はD_{KL}(Q || P)と等しくありません。

実際には、KLダイバージェンスはモデル評価、生成モデルのトレーニング、情報圧縮に一般的に使用されます。たとえば、機械学習の最適化アルゴリズムは、KLダイバージェンスを最小化することで、モデルの予測分布を実際のデータ分布に合わせることができます。

将来的には、深層学習やビッグデータ技術の進展に伴い、KLダイバージェンスは他の情報指標と組み合わさって、高次元データを処理するためのより複雑なモデルに発展する可能性があります。

KLダイバージェンスの利点は、数学的性質がシンプルで計算が容易であることですが、欠点としてゼロ確率の事象に敏感であり、不安定な結果を引き起こす可能性があります。使用する際は、入力確率分布が有効であることを確認する必要があります。