Glossary

0-9

1-shot learning 3D convolution 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 2-stage detector 9-layer network 0-shot learning 4D data

A

AGI / Artificial General Intelligence Attention Autoencoder Algorithm Artificial Intelligence (AI)

B

Backpropagation Batch Normalization BERT Bias Boosting

C

Clustering CNN / Convolutional Neural Network Chatbot Classifier / Classification Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Encoder Embedding Ensemble Learning Epoch Explainable AI (XAI)

F

Foundation Model Fine-tuning Fusion / Multimodal Fusion Feature Extraction Forward Propagation

G

Graph Neural Network (GNN)GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding

H

Hierarchical Model Hyperparameter Hidden Layer Hallucination Heuristic

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Kernel Trick KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Knowledge Distillation

L

Learning Rate Large Language Model (LLM)Latent Variable Loss Function LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Objective Function Optimizer One-hot Encoding Online Learning Overfitting

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Q-learning Quality Estimation Quantization Queue / Buffer

R

Representation Learning Regularization Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Sequence Modeling Softmax Supervised Learning

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Universal Approximation Theorem U-Net Underfitting Uncertainty Estimation Unsupervised Learning

V

Validation Set Vanishing / Exploding Gradient Variational Autoencoder (VAE)Vector Embedding Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem X-axis / feature axis XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-gradient phenomenon Zero-centric / Zero-bias initialization Z-score Normalization Zero-shot Learning / Zero-shot inference Zygosity in augmentation

Was ist Multi-head Attention

Multi-head Attention ist ein Mechanismus, der in tiefem Lernen, insbesondere in der Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV), weit verbreitet ist. Er wurde ursprünglich im Transformer-Modell eingeführt und hat die sequenzielle Zuordnung von Lernaufgaben revolutioniert. Die zentrale Idee von Multi-head Attention besteht darin, die Eingangsmerkmale in mehrere Unterräume zu unterteilen und sie parallel durch mehrere 'Köpfe' zu verarbeiten, um verschiedene Merkmale und Beziehungen innerhalb der Eingabedaten zu erfassen.

Die Funktionsweise von Multi-head Attention besteht darin, die Eingabedaten zunächst linear in mehrere Gruppen zu transformieren, wobei jede Gruppe unabhängig die Aufmerksamkeitsgewichte berechnet und Ausgaben generiert. Schließlich werden diese Ausgaben verbunden und durch eine weitere lineare Transformation zusammengeführt. Dieser Mechanismus erhöht die Ausdruckskraft und Effizienz des Modells.

In Anwendungsszenarien wird Multi-head Attention in Aufgaben wie maschineller Übersetzung, Textgenerierung und Bilderkennung eingesetzt. Aufgrund seiner Flexibilität und Effizienz ist es zu einem zentralen Bestandteil vieler moderner Deep-Learning-Modelle geworden. In Zukunft wird erwartet, dass Multi-head Attention mit zunehmenden Rechenressourcen und einer kontinuierlichen Weiterentwicklung der Modellarchitekturen in noch mehr Bereichen Anwendung findet.

Allerdings hat es auch einige Nachteile, wie hohe Rechenkosten, insbesondere bei der Verarbeitung langer Sequenzen, was zu einer Leistungseinbuße führen kann. Daher müssen diese Faktoren bei der Modellgestaltung berücksichtigt werden.