Glossary

0-9

1-shot learning 5G + AI 6DoF pose estimation 7D representation 8-bit quantization 2-stage detector 4D data 0-shot learning 9-layer network 3D convolution

A

AGI / Artificial General Intelligence Autoencoder Attention Algorithm Artificial Intelligence (AI)

B

Backpropagation BERT Boosting Batch Normalization Bias

C

Chatbot Clustering CNN / Convolutional Neural Network Cross-Validation Classifier / Classification

D

Deep Learning Deepfake Discriminative Model Deterministic Model Data Augmentation

E

Embedding Encoder Epoch Ensemble Learning Explainable AI (XAI)

F

Fine-tuning Fusion / Multimodal Fusion Forward Propagation Foundation Model Feature Extraction

G

GAN / Generative Adversarial Network Gradient Descent Grounding Graph Neural Network (GNN)Generative AI

H

Hyperparameter Heuristic Hidden Layer Hierarchical Model Hallucination

I

Imbalanced Data Interpretability Instruction tuning Instance / Sample Intelligence Amplification / Augmentation

J

JAX Jittering Joint Embedding JSONL / JSON-lines Juxtaposition

K

KL Divergence (Kullback–Leibler Divergence)K-means Clustering K-Shot Learning Kernel Trick Knowledge Distillation

L

Latent Variable Loss Function LSTM / Long Short-Term Memory Large Language Model (LLM)Learning Rate

M

Multimodal / Multimodality Machine Learning (ML)Meta-learning Model Multi-head Attention

N

Normalization Neural Network NLP / Natural Language Processing NLU / Natural Language Understanding Novelty Detection / Anomaly Detection

O

Objective Function Online Learning One-hot Encoding Overfitting Optimizer

P

Policy / Reinforcement Learning Policy Pooling Pretraining Prompt Parameter

Q

Queue / Buffer Quantization Q-learning Query Quality Estimation

R

Retrieval Augmented Generation (RAG)Representation Learning Reinforcement Learning (RL)Regularization RNN / Recurrent Neural Network

S

Supervised Learning Self-Supervised Learning Sequence Modeling Sampling Softmax

T

Training Data Tokenizer Transfer Learning Transformer Tuning / Hyperparameter Tuning

U

Universal Approximation Theorem Unsupervised Learning U-Net Underfitting Uncertainty Estimation

V

Variational Autoencoder (VAE)Vector Embedding Vanishing / Exploding Gradient Validation Set Vision Transformer (ViT)

W

Weak Supervision Weight Decay Whitening / Whitening Transformation Word Embedding Workflow

X

XOR problem X-axis / feature axis XAI / Explainable AI XLM XLNet

Y

Y-axis / feature axis Y-transform / YUV YAGNI (You Aren't Gonna Need It)Yield (model yield / throughput)Yoga of AI

Z

Z-score Normalization Zero-gradient phenomenon Zero-shot Learning / Zero-shot inference Zero-centric / Zero-bias initialization Zygosity in augmentation

Vision Transformer (ViT) là gì

Vision Transformer (ViT) là một mô hình đột phá được giới thiệu bởi Google Research vào năm 2020, áp dụng kiến trúc Transformer vào các nhiệm vụ thị giác máy tính, đặc biệt là phân loại hình ảnh. Mạng nơ-ron tích chập (CNN) truyền thống đã hoạt động tốt trong việc xử lý hình ảnh, nhưng ViT cho thấy hiệu suất vượt trội trong các nhiệm vụ cụ thể nhờ vào cơ chế tự chú ý.

Cơ chế chính của ViT liên quan đến việc chia một hình ảnh thành các mảnh có kích thước cố định, sau đó các mảnh này được tuyến tính hóa và đưa vào Transformer để xử lý. Không giống như CNN, ViT không phụ thuộc vào các lớp tích chập mà sử dụng nhiều lớp tự chú ý để trích xuất đặc trưng, cho phép nắm bắt hiệu quả các phụ thuộc dài hạn.

Mặc dù ViT có những lợi thế của nó, nhưng nó cũng có một số nhược điểm. Nó thường yêu cầu một lượng lớn dữ liệu để đào tạo và tài nguyên tính toán đáng kể. Hơn nữa, quá trình đào tạo có thể chậm, đặc biệt là với các tập dữ liệu nhỏ hơn. Tuy nhiên, ViT đã cho thấy kết quả hứa hẹn trong các kịch bản học chuyển giao.

Nhìn về tương lai, ViT có khả năng sẽ được áp dụng trong một loạt các nhiệm vụ thị giác rộng hơn, đặc biệt trong các kịch bản cần hiểu biết ngữ cảnh phức tạp. Khi phần cứng và thuật toán tiếp tục phát triển, khả năng tiếp cận và hiệu quả của ViT có thể sẽ được cải thiện hơn nữa.