한국어 문서로부터 표 구조 인식을 위한 Transformer 기반 모델 설계

Abstract

디지털 행정, 금융 분야에서 문서 내 표 구조를 이해하는 것은 중요한 이슈 중의 하나이다. 기존 광학문자인식(OCR) 기술은 문자 수준 인식에는 유효하지만, 표의 구조적 맥락을 복원하는 데 한계가 있다. 특히 한글과 한자가 혼용된 한국어 문서는 영어 중심 모델에 비해 낮은 인식률을 보인다. 본 연구에서는 이러한 문제를 해결하기 위해 Transformer 기반 이중 디코더 구조의 한국어 문서 표 구조 인식 모델을 제안한다. 제안 모델은 문서 이미지로부터 표의 논리적, 물리적 구조를 병렬적으로 예측하고, PDF 텍스트 매핑과 보조 OCR 절차를 결합하여 구조적 정확도와 텍스트 일관성을 향상시킨다. 본 연구는 한국어 문서 인식 자동화를 위한 기반 기술로서, 전자 행정 업무 효율화에 기여할 수 있을 것으로 기대된다.

Designing A Transformer-Based Model for Understanding Table Structure Recognition in Korean Documents