Glossary

什麼是 Vision Transformer (ViT)

Vision Transformer (ViT) 是由 Google Research 在 2020 年提出的一種新型模型,它將 Transformer 架構應用於計算機視覺任務,特別是在圖像分類中。傳統的卷積神經網絡 (CNN) 處理圖像時表現良好,但 ViT 通過自注意力機制在特定任務中顯示出更優的性能。


ViT 的核心機制是將圖像劃分為固定大小的補丁,然後將這些補丁線性化並輸入到 Transformer 中進行處理。與 CNN 不同,ViT 不依賴卷積層,而是利用多個自注意力層來提取特徵,從而有效捕捉長程依賴關係。


儘管 ViT 有其優勢,但也存在一些缺點。它通常需要大量的數據進行訓練和較高的計算資源。此外,在數據集較小的情況下,訓練過程可能較慢。然而,ViT 在遷移學習場景中顯示出良好的效果。


展望未來,ViT 可能會在更廣泛的視覺任務中得到應用,特別是在需要複雜上下文理解的場景中。隨著硬件和算法的持續進步,ViT 的可用性和效率可能會不斷提高。