Glossary

멀티 헤드 어텐션이란?

멀티 헤드 어텐션은 딥 러닝, 특히 자연어 처리(NLP)와 컴퓨터 비전(CV)에서 널리 사용되는 메커니즘입니다. 이는 처음에 Transformer 모델에서 제안되어 시퀀스-투-시퀀스 학습 작업을 혁신했습니다. 멀티 헤드 어텐션의 핵심 아이디어는 입력 기능 벡터를 여러 하위 공간으로 나누고 여러 '헤드'를 통해 병렬 처리하여 입력 데이터 내의 다양한 기능과 관계를 포착하는 것입니다.


멀티 헤드 어텐션의 작동 방식은 먼저 입력 데이터를 선형 변환하여 여러 그룹으로 나눈 후 각 그룹이 독립적으로 주의 가중치를 계산하고 출력을 생성합니다. 마지막으로 이러한 출력은 연결되고 다시 선형 변환을 통해 병합됩니다. 이 메커니즘은 모델의 표현력과 효율성을 향상시킵니다.


응용 시나리오에서 멀티 헤드 어텐션은 기계 번역, 텍스트 생성 및 이미지 인식과 같은 작업에 사용됩니다. 유연성과 효율성 덕분에 이는 많은 현대 딥 러닝 모델의 핵심 구성 요소가 되었습니다. 앞으로 계산 자원이 증가하고 모델 구조가 지속적으로 발전함에 따라 멀티 헤드 어텐션은 더 많은 분야에서 활용될 것으로 기대됩니다.


그러나 긴 시퀀스를 처리할 때 계산 오버헤드가 커져 성능 저하를 초래할 수 있는 등 몇 가지 단점이 있습니다. 따라서 모델 설계 시 이러한 요소를 고려해야 합니다.