Glossary

0-9

2-stage detector 9-layer network 5G + AI 0-shot learning 6DoF pose estimation 3D convolution 8-bit quantization 7D representation 1-shot learning 4D data

A

Algorithm Autoencoder AGI / Artificial General Intelligence Attention Artificial Intelligence (AI)

B

BERT Batch Normalization Backpropagation Bias Boosting

C

Chatbot Classifier / Classification CNN / Convolutional Neural Network Cross-Validation Clustering

D

Deterministic Model Discriminative Model Deepfake Data Augmentation Deep Learning

E

Epoch Encoder Ensemble Learning Embedding Explainable AI (XAI)

F

Foundation Model Feature Extraction Fusion / Multimodal Fusion Forward Propagation Fine-tuning

G

GAN / Generative Adversarial Network Generative AI Gradient Descent Grounding Graph Neural Network (GNN)

H

Hyperparameter Hidden Layer Hallucination Heuristic Hierarchical Model

I

Instance / Sample Instruction tuning Intelligence Amplification / Augmentation Interpretability Imbalanced Data

J

JAX Joint Embedding JSONL / JSON-lines Juxtaposition Jittering

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Large Language Model (LLM)Latent Variable Loss Function Learning Rate LSTM / Long Short-Term Memory

M

Model Machine Learning (ML)Meta-learning Multi-head Attention Multimodal / Multimodality

N

Neural Network Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization

O

Optimizer Online Learning Objective Function Overfitting One-hot Encoding

P

Parameter Prompt Policy / Reinforcement Learning Policy Pooling Pretraining

Q

Query Quality Estimation Quantization Q-learning Queue / Buffer

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Self-Supervised Learning Supervised Learning Sampling Sequence Modeling Softmax

T

Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning Training Data

U

Unsupervised Learning Uncertainty Estimation Underfitting Universal Approximation Theorem U-Net

V

Variational Autoencoder (VAE)Vector Embedding Validation Set Vanishing / Exploding Gradient Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Yield (model yield / throughput)Yoga of AI Y-transform / YUV YAGNI (You Aren't Gonna Need It)

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zygosity in augmentation Zero-gradient phenomenon

Qu'est-ce qu'un Tokenizer?

Tokenizer - AI and technology concept illustration

© 2025 / unsplash.com

Un tokenizer est un composant crucial dans le traitement du langage naturel (NLP) et l'analyse des langages de programmation. Il est responsable de la décomposition du texte d'entrée en unités plus petites, typiquement des mots, des sous-mots ou des symboles, pour un traitement ultérieur.

La tokenisation sert de première étape dans le traitement du texte, établissant la base pour divers algorithmes et modèles, en particulier dans les contextes d'apprentissage automatique et d'apprentissage profond. Différentes langues et applications nécessitent différents types de tokenizers ; par exemple, les tokenizers basés sur l'espace fonctionnent bien pour l'anglais, tandis que les tokenizers basés sur les caractères sont plus efficaces pour le chinois.

L'importance de la tokenisation réside dans sa capacité à fournir des informations structurées pour l'analyse et le traitement des données textuelles. En décomposant le texte en tokens, les algorithmes peuvent plus facilement identifier des modèles, extraire des caractéristiques et générer des prédictions. Par conséquent, le choix du tokenizer approprié est crucial pour garantir les performances du modèle.

À mesure que l'intelligence artificielle et l'apprentissage automatique continuent d'évoluer, les méthodes de tokenisation évoluent également. De nombreux modèles modernes utilisent des techniques de tokenisation basées sur des sous-mots, telles que le Byte Pair Encoding (BPE) ou le WordPiece, qui peuvent traiter efficacement les mots rares et les nouveaux termes, améliorant ainsi la capacité de généralisation du modèle.