Glossary

0-9

1-shot learning 2-stage detector 3D convolution 4D data 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 9-layer network 0-shot learning

A

Algorithm Autoencoder Artificial Intelligence (AI)Attention AGI / Artificial General Intelligence

B

Batch Normalization Boosting Backpropagation Bias BERT

C

Classifier / Classification Chatbot Cross-Validation Clustering CNN / Convolutional Neural Network

D

Deterministic Model Data Augmentation Deep Learning Discriminative Model Deepfake

E

Explainable AI (XAI)Ensemble Learning Encoder Embedding Epoch

F

Foundation Model Fine-tuning Forward Propagation Feature Extraction Fusion / Multimodal Fusion

G

Gradient Descent Graph Neural Network (GNN)Generative AI GAN / Generative Adversarial Network Grounding

H

Hierarchical Model Hidden Layer Hyperparameter Hallucination Heuristic

I

Imbalanced Data Instance / Sample Intelligence Amplification / Augmentation Interpretability Instruction tuning

J

Juxtaposition Joint Embedding Jittering JAX JSONL / JSON-lines

K

Knowledge Distillation Kernel Trick K-means Clustering K-Shot Learning KL Divergence (Kullback–Leibler Divergence)

L

Large Language Model (LLM)Loss Function Latent Variable Learning Rate LSTM / Long Short-Term Memory

M

Machine Learning (ML)Multimodal / Multimodality Multi-head Attention Meta-learning Model

N

Novelty Detection / Anomaly Detection Neural Network Normalization NLP / Natural Language Processing NLU / Natural Language Understanding

O

Objective Function Overfitting Online Learning Optimizer One-hot Encoding

P

Parameter Policy / Reinforcement Learning Policy Prompt Pretraining Pooling

Q

Quantization Query Queue / Buffer Quality Estimation Q-learning

R

Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization Representation Learning RNN / Recurrent Neural Network

S

Supervised Learning Sampling Sequence Modeling Self-Supervised Learning Softmax

T

Transfer Learning Tokenizer Tuning / Hyperparameter Tuning Transformer Training Data

U

Uncertainty Estimation Unsupervised Learning Underfitting Universal Approximation Theorem U-Net

V

Validation Set Vector Embedding Variational Autoencoder (VAE)Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Whitening / Whitening Transformation Weak Supervision Word Embedding Workflow Weight Decay

X

X-axis / feature axis XAI / Explainable AI XLM XLNet XOR problem

Y

Yield (model yield / throughput)Yoga of AI Y-transform / YUV Y-axis / feature axis YAGNI (You Aren't Gonna Need It)

Z

Zero-gradient phenomenon Zero-centric / Zero-bias initialization Zero-shot Learning / Zero-shot inference Zygosity in augmentation Z-score Normalization

정책/강화 학습 정책이란 무엇인가

강화 학습에서 '정책'은 에이전트가 인식한 상태에 따라 행동을 선택하는 방식을 정의합니다. 이는 결정적이거나 확률적일 수 있으며, 에이전트가 환경에서 학습하는 효율성에 영향을 미칩니다.

강화 학습에서 정책은 매우 중요합니다. 이는 에이전트의 의사결정 과정을 안내합니다. 정책에는 행동 정책(행동을 생성하는 데 사용)과 목표 정책(행동을 평가하고 개선하는 데 사용) 두 가지 주요 유형이 있습니다. 에이전트는 시행착오를 통해 정책을 최적화하여 누적 보상을 극대화하는 방법을 배웁니다.

강화 학습 정책의 미래는 더 복잡한 알고리즘을 포함할 수 있으며, 이는 심층 학습 기반 방법을 포함하여 에이전트가 더 복잡한 환경에서 결정을 내릴 수 있도록 합니다. 또한 다중 에이전트 시스템의 발전으로 인해 정책 간의 협력 및 경쟁도 점점 더 중요해질 것입니다.

강화 학습에서 정책은 게임, 자율 주행, 로봇 제어 및 금융 거래와 같은 다양한 분야에 널리 사용됩니다. 이러한 정책의 최적화는 시스템의 성능과 효율성에 직접적인 영향을 미칩니다.