Glossary

0-9

1-shot learning 5G + AI 7D representation 0-shot learning 3D convolution 4D data 2-stage detector 6DoF pose estimation 8-bit quantization 9-layer network

A

AGI / Artificial General Intelligence Algorithm Attention Autoencoder Artificial Intelligence (AI)

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Chatbot Classifier / Classification Clustering CNN / Convolutional Neural Network Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Embedding Encoder Epoch Explainable AI (XAI)

F

Feature Extraction Fine-tuning Fusion / Multimodal Fusion Foundation Model Forward Propagation

G

Gradient Descent GAN / Generative Adversarial Network Grounding Generative AI Graph Neural Network (GNN)

H

Hidden Layer Hallucination Heuristic Hyperparameter Hierarchical Model

I

Intelligence Amplification / Augmentation Imbalanced Data Instance / Sample Instruction tuning Interpretability

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Loss Function LSTM / Long Short-Term Memory Learning Rate Large Language Model (LLM)Latent Variable

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Optimizer Overfitting

P

Parameter Policy / Reinforcement Learning Policy Pooling Pretraining Prompt

Q

Quality Estimation Queue / Buffer Q-learning Quantization Query

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Supervised Learning Sequence Modeling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Unsupervised Learning Uncertainty Estimation Universal Approximation Theorem U-Net Underfitting

V

Vector Embedding Vanishing / Exploding Gradient Validation Set Variational Autoencoder (VAE)Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

O que é Gradiente Desaparecendo / Explodindo

Os conceitos de Gradiente Desaparecendo e Gradiente Explodindo são cruciais no contexto de aprendizado profundo e treinamento de redes neurais.

O Gradiente Desaparecendo refere-se ao cenário em que os gradientes se tornam extremamente pequenos durante a retropropagação, efetivamente fazendo com que os pesos parem de atualizar. Esse fenômeno é prevalente em redes profundas, particularmente aquelas que usam funções de ativação sigmoid ou tanh, levando a um aprendizado lento ou estagnado.

Por outro lado, o Gradiente Explodindo ocorre quando os gradientes crescem excessivamente durante a retropropagação, resultando em atualizações de pesos instáveis e divergência do modelo. Isso é frequentemente visto em redes com muitas camadas, especialmente ao usar funções de ativação ReLU.

Ambos os fenômenos impactam significativamente a eficiência e a eficácia do treinamento de modelos de aprendizado profundo. Pesquisadores propuseram várias arquiteturas como LSTM para mitigar os efeitos do Gradiente Desaparecendo e técnicas como recorte de gradiente para lidar com o Gradiente Explodindo.

À medida que o aprendizado profundo evolui, abordar esses problemas se torna cada vez mais crucial, com novas funções de ativação e designs de rede visando manter a estabilidade dos gradientes.