Abstract
디지털 미디어의 확산으로 뉴스·강의 등 장시간 비디오 콘텐츠가 증가함에 따라, 영상 내 주제 전환(Topic Segmentation) 자동 탐지의 중요성이 커지고 있다. 그러나 기존 단일모달 텍스트 기반 접근은 시각적 전환 정보를 충분히 반영하지 못한다. 본 연구는 한국어 영상에 특화된 멀티모달 주제 분할 모델을 제안한다. 제안된 모델은 Longformer 기반 텍스트 인코더와 CLIP 기반 비전 인코더를 결합하고, Co-Attention 및 Mixture-of-Experts 구조를 통해 두 모달 간 의미적 상호작용을 강화한다. 실제 영상 데이터를 활용한 실험 결과, 본 모델은 기존 접근 방식보다 성능이 향상되었으며, 텍스트와 시각 단서의 상호보완적 정보를 효과적으로 통합하여 한국어 영상 내 주제 전환을 정밀하게 탐지함을 입증하였다.
Multimodal Co-Attention Model Design for Topic Segmentation in Korean Educational Videos