Glossary

0-9

1-shot learning 5G + AI 7D representation 0-shot learning 3D convolution 4D data 2-stage detector 6DoF pose estimation 8-bit quantization 9-layer network

A

AGI / Artificial General Intelligence Algorithm Attention Autoencoder Artificial Intelligence (AI)

B

Backpropagation BERT Bias Boosting Batch Normalization

C

Chatbot Classifier / Classification Clustering CNN / Convolutional Neural Network Cross-Validation

D

Data Augmentation Deep Learning Deepfake Deterministic Model Discriminative Model

E

Ensemble Learning Embedding Encoder Epoch Explainable AI (XAI)

F

Feature Extraction Fine-tuning Fusion / Multimodal Fusion Foundation Model Forward Propagation

G

Gradient Descent GAN / Generative Adversarial Network Grounding Generative AI Graph Neural Network (GNN)

H

Hidden Layer Hallucination Heuristic Hyperparameter Hierarchical Model

I

Intelligence Amplification / Augmentation Imbalanced Data Instance / Sample Instruction tuning Interpretability

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

Knowledge Distillation KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick

L

Loss Function LSTM / Long Short-Term Memory Learning Rate Large Language Model (LLM)Latent Variable

M

Machine Learning (ML)Meta-learning Model Multi-head Attention Multimodal / Multimodality

N

Novelty Detection / Anomaly Detection NLP / Natural Language Processing NLU / Natural Language Understanding Normalization Neural Network

O

Online Learning Objective Function One-hot Encoding Optimizer Overfitting

P

Parameter Policy / Reinforcement Learning Policy Pooling Pretraining Prompt

Q

Quality Estimation Queue / Buffer Q-learning Quantization Query

R

Representation Learning Reinforcement Learning (RL)Retrieval Augmented Generation (RAG)Regularization RNN / Recurrent Neural Network

S

Sampling Self-Supervised Learning Supervised Learning Sequence Modeling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Unsupervised Learning Uncertainty Estimation Universal Approximation Theorem U-Net Underfitting

V

Vector Embedding Vanishing / Exploding Gradient Validation Set Variational Autoencoder (VAE)Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

X-axis / feature axis XOR problem XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Z-score Normalization Zero-gradient phenomenon Zygosity in augmentation

O que é Tokenizer

Tokenizer - AI and technology concept illustration

© 2025 / unsplash.com

Um tokenizer é um componente crucial no processamento de linguagem natural (NLP) e na análise de linguagens de programação. Ele é responsável por dividir o texto de entrada em unidades menores, tipicamente palavras, subpalavras ou símbolos, para processamento posterior.

A tokenização serve como o primeiro passo na manipulação de texto, estabelecendo a base para vários algoritmos e modelos, particularmente em contextos de aprendizado de máquina e aprendizado profundo. Diferentes idiomas e aplicativos requerem diferentes tipos de tokenizers; por exemplo, tokenizers baseados em espaço funcionam bem para o inglês, enquanto tokenizers baseados em caracteres são mais eficazes para o chinês.

A importância da tokenização reside em sua capacidade de fornecer informações estruturadas para análise e processamento de dados de texto. Ao decompor texto em tokens, os algoritmos podem identificar padrões, extrair características e gerar previsões de forma mais fácil. Portanto, selecionar o tokenizer apropriado é crucial para garantir o desempenho do modelo.

À medida que a inteligência artificial e o aprendizado de máquina continuam a evoluir, os métodos de tokenização também estão avançando. Muitos modelos modernos utilizam técnicas de tokenização baseadas em subpalavras, como Byte Pair Encoding (BPE) ou WordPiece, que podem lidar efetivamente com palavras raras e novos termos, melhorando a capacidade de generalização do modelo.