Glossary

Vision Transformer (ViT) là gì

Vision Transformer (ViT) là một mô hình đột phá được giới thiệu bởi Google Research vào năm 2020, áp dụng kiến trúc Transformer vào các nhiệm vụ thị giác máy tính, đặc biệt là phân loại hình ảnh. Mạng nơ-ron tích chập (CNN) truyền thống đã hoạt động tốt trong việc xử lý hình ảnh, nhưng ViT cho thấy hiệu suất vượt trội trong các nhiệm vụ cụ thể nhờ vào cơ chế tự chú ý.


Cơ chế chính của ViT liên quan đến việc chia một hình ảnh thành các mảnh có kích thước cố định, sau đó các mảnh này được tuyến tính hóa và đưa vào Transformer để xử lý. Không giống như CNN, ViT không phụ thuộc vào các lớp tích chập mà sử dụng nhiều lớp tự chú ý để trích xuất đặc trưng, cho phép nắm bắt hiệu quả các phụ thuộc dài hạn.


Mặc dù ViT có những lợi thế của nó, nhưng nó cũng có một số nhược điểm. Nó thường yêu cầu một lượng lớn dữ liệu để đào tạo và tài nguyên tính toán đáng kể. Hơn nữa, quá trình đào tạo có thể chậm, đặc biệt là với các tập dữ liệu nhỏ hơn. Tuy nhiên, ViT đã cho thấy kết quả hứa hẹn trong các kịch bản học chuyển giao.


Nhìn về tương lai, ViT có khả năng sẽ được áp dụng trong một loạt các nhiệm vụ thị giác rộng hơn, đặc biệt trong các kịch bản cần hiểu biết ngữ cảnh phức tạp. Khi phần cứng và thuật toán tiếp tục phát triển, khả năng tiếp cận và hiệu quả của ViT có thể sẽ được cải thiện hơn nữa.