Glossary

0-9

2-stage detector 9-layer network 5G + AI 0-shot learning 6DoF pose estimation 3D convolution 8-bit quantization 7D representation 1-shot learning 4D data

A

Algorithm Autoencoder AGI / Artificial General Intelligence Attention Artificial Intelligence (AI)

B

BERT Batch Normalization Backpropagation Bias Boosting

C

Chatbot Classifier / Classification CNN / Convolutional Neural Network Cross-Validation Clustering

D

Deterministic Model Discriminative Model Deepfake Data Augmentation Deep Learning

E

Epoch Encoder Ensemble Learning Embedding Explainable AI (XAI)

F

Foundation Model Feature Extraction Fusion / Multimodal Fusion Forward Propagation Fine-tuning

G

GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding Graph Neural Network (GNN)

H

Hyperparameter Hidden Layer Hallucination Heuristic Hierarchical Model

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Joint Embedding JSONL / JSON-lines Juxtaposition Jittering

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Large Language Model (LLM)Latent Variable Loss Function Learning Rate LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Optimizer Online Learning Objective Function Overfitting One-hot Encoding

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Quality Estimation Quantization Q-learning Queue / Buffer

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sampling Sequence Modeling Softmax

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Unsupervised Learning Uncertainty Estimation Underfitting Universal Approximation Theorem U-Net

V

Variational Autoencoder (VAE)Vector Embedding Validation Set Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zygosity in augmentation Zero-gradient phenomenon

Qu'est-ce que Q-learning?

Q-learning est un algorithme d'apprentissage par renforcement sans modèle qui permet à un agent d'apprendre la valeur des actions dans un état donné. Il fonctionne en interagissant avec l'environnement et en apprenant une politique pour maximiser les récompenses cumulées. L'importance de Q-learning réside dans sa capacité à optimiser les décisions sans nécessiter de connaissance du modèle de l'environnement.

L'idée fondamentale derrière Q-learning est d'utiliser une fonction Q pour évaluer la valeur de chaque paire état-action. L'algorithme met à jour les valeurs Q de manière itérative en fonction des récompenses reçues de l'environnement, généralement en utilisant l'équation de Bellman pour les mises à jour. Cette approche a montré des performances remarquables dans diverses applications, y compris l'IA de jeux, la navigation robotique et le contrôle adaptatif.

Un des avantages de Q-learning est sa simplicité et sa facilité d'implémentation, ainsi que sa capacité à traiter des espaces d'état de haute dimension. Cependant, il présente également des inconvénients, tels qu'une vitesse de convergence lente, un besoin d'exploration extensive et une instabilité potentielle dans certains scénarios.

À l'avenir, l'intégration de Q-learning avec des techniques d'apprentissage profond (connues sous le nom de Réseaux Q Profonds ou DQN) devrait améliorer les performances dans des environnements plus complexes. Par conséquent, comprendre les principes de base et les applications de Q-learning est crucial pour la recherche et l'application de l'apprentissage par renforcement.