대형 언어 모델(LLM)의 성능 개선 : 마이크로소프트의 Differential Transformer
최근 인공지능(AI) 연구는 대형 언어 모델(LLM)의 성능 개선 에 많은 노력을 기울이고 있다.
특히, 글 내 문맥 정보를 보다 정확하게 인지하고 활용하는 것은 주요 과제로 남아있다.
이러한 기능의 발전은 다양한 응용 분야,
예를 들어 Retrieval-Augmented Generation(RAG)과 In-Context Learning(ICL) 등에서 중요한 역할을 할 수 있다.
마이크로소프트 리서치와 칭화대학교 연구자들은
이 문제를 해결하기 위한 새로운 대형 언어 모델 아키텍처인 Differential Transformer를 소개했다.
이 아키텍처는 문맥 내 관련 정보를 강조하며 불필요한 잡음을 필터링하여 성능을 크게 향상시킨다.
트랜스포머와 ‘Lost-in-the-Middle’ 현상
대부분의 현대 대형 언어 모델의 기초는 트랜스포머(Transformer) 아키텍처에 기반하고 있다.
이 아키텍처는 입력 시퀀스의 각 부분의 중요도를 평가하기 위해 어텐션 메커니즘을 사용한다.
그러나 트랜스포머는 긴 문맥에서 핵심 정보를 회수하는데 어려움을 겪는다.
연구에 따르면, 모델이 긴 문맥의 중간 정보에 접근해야 할 때 성능이 크게 저하되는 ‘Lost-in-the-Middle’ 현상이 발생한다.
이와 같은 현상의 원인 중 하나는 트랜스포머의 어텐션 방식이
입력 시퀀스의 불필요한 부분들까지 과도하게 주목하는 경향이 있기 때문이다.
이는 모델의 출력 오류와 직결되기도 한다.
Differential Transformer의 혁신
이 문제를 해결하기 위해,
연구자들은 Differentiol Transformer를 개발하였다.
이 새로운 아키텍처는 ‘차별적 어텐션’ 메커니즘을 사용하여 잡음을 제거하고 입력의 가장 관련 있는 부분에 어텐션을 집중시킨다.
차별적 어텐션은 쿼리와 키 벡터를 두 개의 그룹으로 나누고, 각각의 소프트맥스 어텐션 맵을 계산하여 그 차이를 얻는다.
이러한 과정은 공통 잡음을 제거해 모델이 입력에서 본질적인 정보를 인식하도록 돕는다.
기존의 트랜스포머가 가진 소프트맥스 함수 기반의 어텐션 메커니즘의 병목 현상을 극복하고,
효율성을 유지하면서도 성능을 대폭 향상시켰다.
실험과 향후 전망
Differential Transformer는 다양한 언어 모델링 작업을 통해 검증되었다.
각각의 실험에서 기존 트랜스포머 아키텍처보다 우수한 성능을 보였다.
특히, 긴 문맥에서 중대한 개선을 보였으며,
더 적은 파라미터와 트레이닝 토큰을 사용해도 유사한 성능을 유지했다.
연구팀은 해당 아키텍처를 더욱 확장해 이미지, 오디오, 비디오 등의 다른 데이터를 포함한 멀티모달 데이터로도 적용할 계획이다.
Differential Transformer의 코드는 이미 공개되어 있다.
이를 통해 다양한 대형 언어 모델 응용 분야에서 성능을 개선하는 데 기여할 것으로 기대된다.
이러한 발전 덕분에, Retrieval-Augmented Generation과 같은 영역에서 더욱 정확한 응답을 생성할 수 있을 것이다.
이는 Bing Chat이나 특정 도메인에 특화된 모델에 큰 영향을 미칠 것으로 보인다.
대형 언어 모델의 진화를 주도하는 Differential Transformer의 끊임없는 연구와 실험을 통해 AI가 한층 더 강력한 도구로 자리 잡을 수 있을 것이다.
이번시간에는 대형 언어 모델(LLM)의 성능 개선 에 대해 알아보았다.