Glossary

什麼是自監督學習

自監督學習是一種機器學習方法,旨在通過利用未標記的數據進行訓練,從而生成有用的特徵表示。這種方法在近年來的圖像和自然語言處理任務中得到了極大的關注。


自監督學習的背景源於監督學習的局限性,後者需要大量的標記數據,這在許多實際應用中難以獲得。通過自監督學習,模型可以從未標記的數據中提取信息,從而構建特徵表示。


在運作方式上,自監督學習通常通過設置預測任務進行訓練。例如,在圖像處理中,模型可能需要預測圖像的某個部分或重新構建被遮擋的圖像。在自然語言處理領域,BERT等模型使用遮蓋語言模型的方式進行自監督訓練,提升了下游任務的表現。


自監督學習的優點在於能有效利用大量未標記的數據,提高模型的表現;但缺點是模型可能學習到不必要的噪聲,導致性能下降。此外,儘管自監督學習在理論上具有廣泛的應用前景,但在實際應用中,模型的設計和訓練過程仍需謹慎處理。


未來,自監督學習在數據稀缺的情況下可能會在更多領域中得到應用,它可能成為連接無監督學習和監督學習的橋樑,推動人工智慧技術的進步。