Glossary

0-9

1-shot learning 5G + AI 7D representation 0-shot learning 3D convolution 4D data 2-stage detector 6DoF pose estimation 8-bit quantization 9-layer network

A

AGI / Artificial General Intelligence Algorithm Attention Autoencoder Artificial Intelligence (AI)

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Chatbot Classifier / Classification Clustering CNN / Convolutional Neural Network Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Embedding Encoder Epoch Explainable AI (XAI)

F

Feature Extraction Fine-tuning Fusion / Multimodal Fusion Foundation Model Forward Propagation

G

Gradient Descent GAN / Generative Adversarial Network Grounding Generative AI Graph Neural Network (GNN)

H

Hidden Layer Hallucination Heuristic Hyperparameter Hierarchical Model

I

Intelligence Amplification / Augmentation Imbalanced Data Instance / Sample Instruction tuning Interpretability

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Loss Function LSTM / Long Short-Term Memory Learning Rate Large Language Model (LLM)Latent Variable

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Optimizer Overfitting

P

Parameter Policy / Reinforcement Learning Policy Pooling Pretraining Prompt

Q

Quality Estimation Queue / Buffer Q-learning Quantization Query

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Supervised Learning Sequence Modeling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Unsupervised Learning Uncertainty Estimation Universal Approximation Theorem U-Net Underfitting

V

Vector Embedding Vanishing / Exploding Gradient Validation Set Variational Autoencoder (VAE)Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

O que é Divergência KL (Kullback–Leibler)

A Divergência Kullback-Leibler (KL) é um conceito fundamental em teoria da informação e estatística que quantifica a diferença entre duas distribuições de probabilidade. Ela é amplamente utilizada em campos como aprendizado de máquina, estatística e recuperação de informações. Quanto menor o valor da divergência KL, mais semelhantes são as duas distribuições; inversamente, um valor maior indica uma maior divergência.

A fórmula para a divergência KL é definida como:
D_{KL}(P || Q) = ∑ P(i) log(P(i)/Q(i)), onde P e Q são duas distribuições de probabilidade. A divergência KL é não-negativa para distribuições de probabilidade não-negativas e é igual a zero somente quando P e Q são idênticas. Uma característica notável da divergência KL é sua assimetria; D_{KL}(P || Q) não é igual a D_{KL}(Q || P).

No uso prático, a divergência KL é comumente utilizada para avaliação de modelos, treinamento de modelos generativos e compressão de informações. Por exemplo, algoritmos de otimização em aprendizado de máquina podem minimizar a divergência KL para alinhar a distribuição prevista do modelo com a distribuição real dos dados.

Olhando para o futuro, com o avanço das tecnologias de aprendizado profundo e big data, a divergência KL pode ser combinada com outras métricas de informação para criar modelos mais complexos para processar dados de alta dimensão.

As vantagens da divergência KL incluem sua simplicidade matemática e facilidade de cálculo, mas suas desvantagens incluem a sensibilidade a eventos de probabilidade zero, o que pode levar a resultados instáveis. Ao usar, é necessário garantir que as distribuições de probabilidade de entrada sejam válidas.