Glossary

0-9

1-shot learning 5G + AI 7D representation 0-shot learning 3D convolution 4D data 2-stage detector 6DoF pose estimation 8-bit quantization 9-layer network

A

AGI / Artificial General Intelligence Algorithm Attention Autoencoder Artificial Intelligence (AI)

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Chatbot Classifier / Classification Clustering CNN / Convolutional Neural Network Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Embedding Encoder Epoch Explainable AI (XAI)

F

Feature Extraction Fine-tuning Fusion / Multimodal Fusion Foundation Model Forward Propagation

G

Gradient Descent GAN / Generative Adversarial Network Grounding Generative AI Graph Neural Network (GNN)

H

Hidden Layer Hallucination Heuristic Hyperparameter Hierarchical Model

I

Intelligence Amplification / Augmentation Imbalanced Data Instance / Sample Instruction tuning Interpretability

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Loss Function LSTM / Long Short-Term Memory Learning Rate Large Language Model (LLM)Latent Variable

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Optimizer Overfitting

P

Parameter Policy / Reinforcement Learning Policy Pooling Pretraining Prompt

Q

Quality Estimation Queue / Buffer Q-learning Quantization Query

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Supervised Learning Sequence Modeling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Unsupervised Learning Uncertainty Estimation Universal Approximation Theorem U-Net Underfitting

V

Vector Embedding Vanishing / Exploding Gradient Validation Set Variational Autoencoder (VAE)Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

O que é Multi-head Attention

Multi-head Attention é um mecanismo amplamente utilizado em aprendizado profundo, especialmente em processamento de linguagem natural (NLP) e visão computacional (CV). Foi inicialmente introduzido no modelo Transformer, revolucionando as tarefas de aprendizado de sequência para sequência. A ideia central do Multi-head Attention é dividir os vetores de características de entrada em múltiplos subespaços e processá-los em paralelo através de múltiplas 'cabeças', capturando diferentes características e relações dentro dos dados de entrada.

A operação do Multi-head Attention envolve primeiro transformar linearmente os dados de entrada em vários grupos, onde cada grupo calcula independentemente os pesos de atenção e gera saídas. Por fim, essas saídas são concatenadas e passadas por outra transformação linear para serem mescladas. Esse mecanismo melhora o poder expressivo e a eficiência do modelo.

Em cenários de aplicação, o Multi-head Attention é utilizado em tarefas como tradução automática, geração de texto e reconhecimento de imagem. Devido à sua flexibilidade e eficiência, tornou-se um componente central de muitos modelos modernos de aprendizado profundo. No futuro, com o aumento dos recursos computacionais e a evolução contínua das arquiteturas de modelos, espera-se que o Multi-head Attention encontre aplicações em ainda mais áreas.

No entanto, ele também apresenta algumas desvantagens, como um alto custo computacional, especialmente ao lidar com sequências longas, o que pode levar à degradação do desempenho. Portanto, esses fatores devem ser considerados ao projetar modelos.