Glossary

0-9

2-stage detector 9-layer network 5G + AI 0-shot learning 6DoF pose estimation 3D convolution 8-bit quantization 7D representation 1-shot learning 4D data

A

Algorithm Autoencoder AGI / Artificial General Intelligence Attention Artificial Intelligence (AI)

B

BERT Batch Normalization Backpropagation Bias Boosting

C

Chatbot Classifier / Classification CNN / Convolutional Neural Network Cross-Validation Clustering

D

Deterministic Model Discriminative Model Deepfake Data Augmentation Deep Learning

E

Epoch Encoder Ensemble Learning Embedding Explainable AI (XAI)

F

Foundation Model Feature Extraction Fusion / Multimodal Fusion Forward Propagation Fine-tuning

G

GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding Graph Neural Network (GNN)

H

Hyperparameter Hidden Layer Hallucination Heuristic Hierarchical Model

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Joint Embedding JSONL / JSON-lines Juxtaposition Jittering

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Large Language Model (LLM)Latent Variable Loss Function Learning Rate LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Optimizer Online Learning Objective Function Overfitting One-hot Encoding

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Quality Estimation Quantization Q-learning Queue / Buffer

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sampling Sequence Modeling Softmax

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Unsupervised Learning Uncertainty Estimation Underfitting Universal Approximation Theorem U-Net

V

Variational Autoencoder (VAE)Vector Embedding Validation Set Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zygosity in augmentation Zero-gradient phenomenon

Qu'est-ce que Joint Embedding

Joint Embedding est une technique utilisée en apprentissage automatique et en apprentissage profond pour intégrer différents types de données, tels que des textes, des images et des audios, dans le même espace vectoriel. Cette méthode se concentre sur l'amélioration de la performance des modèles dans des tâches multimodales en apprenant une représentation partagée.

En entraînant un réseau de neurones, Joint Embedding apprend à mapper différentes sources de données dans un espace vectoriel commun. Dans cet espace, des entrées similaires sont mappées à des points proches, ce qui est essentiel pour les tâches nécessitant le traitement de plusieurs types d'entrées, telles que la légende d'images et la compréhension de vidéos.

Par exemple, dans l'incorporation conjointe d'images et de textes, un modèle peut mapper des caractéristiques d'images et des descriptions de texte dans le même espace, permettant la récupération d'images basées sur des descriptions textuelles. À mesure que l'apprentissage multimodal continue de croître, on s'attend à ce que le Joint Embedding trouve des applications plus larges dans la réalité augmentée et la réalité virtuelle.

Bien que le Joint Embedding offre des avantages tels que des performances et une efficacité améliorées pour les tâches multimodales, il peut également rencontrer des défis tels que la complexité computationnelle lors de l'entraînement et le besoin de grands ensembles de données. Un prétraitement approprié des données et la sélection du modèle sont cruciaux pour une mise en œuvre réussie.