Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

Algorithm Autoencoder Artificial Intelligence (AI)Attention AGI / Artificial General Intelligence

B

Batch Normalization Boosting Backpropagation Bias BERT

C

Classifier / Classification Chatbot Cross-Validation Clustering CNN / Convolutional Neural Network

D

Deterministic Model Data Augmentation Deep Learning Discriminative Model Deepfake

E

Explainable AI (XAI)Ensemble Learning Encoder Embedding Epoch

F

Foundation Model Fine-tuning Forward Propagation Feature Extraction Fusion / Multimodal Fusion

G

Gradient Descent Graph Neural Network (GNN)Generative AI GAN / Generative Adversarial Network Grounding

H

Hierarchical Model Hidden Layer Hyperparameter Hallucination Heuristic

I

Imbalanced Data Instance / Sample Intelligence Amplification / Augmentation Interpretability Instruction tuning

J

Juxtaposition Joint Embedding Jittering JAX JSONL / JSON-lines

K

Knowledge Distillation Kernel Trick K-means Clustering K-Shot Learning KL Divergence (Kullback–Leibler Divergence)

L

Large Language Model (LLM)Loss Function Latent Variable Learning Rate LSTM / Long Short-Term Memory

M

Machine Learning (ML)Multimodal / Multimodality Multi-head Attention Meta-learning Model

N

Novelty Detection / Anomaly Detection Neural Network Normalization NLP / Natural Language Processing NLU / Natural Language Understanding

O

Objective Function Overfitting Online Learning Optimizer One-hot Encoding

P

Parameter Policy / Reinforcement Learning Policy Prompt Pretraining Pooling

Q

Quantization Query Queue / Buffer Quality Estimation Q-learning

R

Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization Representation Learning RNN / Recurrent Neural Network

S

Supervised Learning Sampling Sequence Modeling Self-Supervised Learning Softmax

T

Transfer Learning Tokenizer Tuning / Hyperparameter Tuning Transformer Training Data

U

Uncertainty Estimation Unsupervised Learning Underfitting Universal Approximation Theorem U-Net

V

Validation Set Vector Embedding Variational Autoencoder (VAE)Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Whitening / Whitening Transformation Weak Supervision Word Embedding Workflow Weight Decay

X

X-axis / feature axis XAI / Explainable AI XLM XLNet XOR problem

Y

Yield (model yield / throughput)Yoga of AI Y-transform / YUV Y-axis / feature axis YAGNI (You Aren't Gonna Need It)

Z

Zero-gradient phenomenon Zero-centric / Zero-bias initialization Zero-shot Learning / Zero-shot inference Zygosity in augmentation Z-score Normalization

KL 발산(Kullback–Leibler 발산)이란 무엇인가

Kullback-Leibler 발산(KL 발산)은 두 확률 분포 간의 차이를 정량화하는 정보 이론 및 통계학의 기본 개념입니다. 이는 기계 학습, 통계 및 정보 검색 등 다양한 분야에서 널리 사용됩니다. KL 발산의 값이 작을수록 두 분포가 유사하다는 것을 나타내며, 반대로 값이 클수록 두 분포 간의 차이가 큽니다.

KL 발산의 공식은 다음과 같이 정의됩니다:
D_{KL}(P || Q) = ∑ P(i) log(P(i)/Q(i))이며, 여기서 P와 Q는 두 확률 분포입니다. KL 발산은 비음수 확률 분포에 대해 비음수이며, P와 Q가 동일할 때만 0이 됩니다. KL 발산의 주목할 만한 특성 중 하나는 비대칭성으로, D_{KL}(P || Q)는 D_{KL}(Q || P)와 같지 않습니다.

실제로 KL 발산은 모델 평가, 생성 모델 훈련 및 정보 압축에 일반적으로 사용됩니다. 예를 들어 기계 학습에서는 최적화 알고리즘이 KL 발산을 최소화하여 모델의 예측 분포를 실제 데이터 분포에 맞추는 데 사용될 수 있습니다.

앞으로의 추세로는 딥러닝 및 빅데이터 기술의 발전에 따라 KL 발산이 다른 정보 지표와 결합되어 고차원 데이터 처리를 위한 더 복잡한 모델로 발전할 가능성이 있습니다.

KL 발산의 장점은 수학적 성질이 간단하고 계산하기 쉽다는 점입니다. 그러나 제로 확률 사건에 민감하여 불안정한 결과를 초래할 수 있는 단점이 있습니다. 사용 시 입력 확률 분포가 유효한지 확인해야 합니다.