로민, ‘범정부 초거대 AI’ 사업에 ‘텍스트스코프 Doc 파서’ 구축
행정 문서 구조화로 내부망 생성형 AI 활용 기반 강화
업무 혁신·대국민 서비스 고도화 지원
다큐먼트 AI 전문기업 로민(대표 강지홍)은 행정안전부와 과학기술정보통신부가 추진하고 삼성SDS 컨소시엄이 수행한 ‘범정부 초거대 AI 공통기반 구현 사업’에 문서 데이터 처리 솔루션 ‘텍스트스코프 Doc 파서(Textscope Doc Parser)’ 구축을 완료했다고 밝혔다.
이번 사업은 중앙·지방정부가 내부 행정망에서도 다양한 생성형 AI 서비스를 보안 우려 없이 공동 활용할 수 있도록 하는 정부 최초의 내부망 AI 공통기반 서비스로, 정부 업무 전반에 AI를 내재화해 정책 기획과 대국민 서비스 품질을 높이는 것이 목표다.
최근 정부에서는 생성형 AI 활용이 확산되면서 공공 문서를 실제로 AI가 이해하고 활용할 수 있는 데이터로 전환하는 문제에 대한 논의가 이어지고 있다. 특히 공공 행정 문서의 상당수를 차지하는 아래아한글(HWP) 문서를 단순히 PDF로 변환하는 방식만으로는 문서 구조와 맥락이 제대로 전달되지 않는 경우가 있다는 지적이 나오면서, 원본 문서의 형식과 의미를 유지한 데이터 구조화 방식의 중요성이 부각되고 있다.
이와 관련해 범정부 초거대 AI 공통기반 사업에서는 공공 문서를 AI가 활용할 수 있도록 문서 구조화 전처리 체계를 구축했다. 로민은 삼성SDS 컨소시엄의 기술 파트너로 참여해 ‘범정부 AI 공통기반’과 연계 서비스가 활용할 공공 행정 문서를 거대언어모델(LLM)이 학습·이해할 수 있도록 구조화·정제하는 전처리 영역에 Doc 파서를 적용했다.
로민이 공급한 Doc 파서는 공문서·보고서·각종 행정 양식 등 다양한 문서에서 텍스트·표·그림 등 핵심 요소를 추출하고, 문서의 레이아웃과 읽기 순서를 함께 인식해 원문의 구조와 맥락을 보존한 형태로 데이터를 구조화하는 문서 레이아웃 분석 솔루션이다.
특히 국내 공공·업무 환경에서 사용 비중이 큰 아래아한글(HWP/HWPX) 문서를 PDF 등 이미지 기반 포맷으로 변환하지 않고 원본 그대로 파싱·구조화할 수 있다는 점이 특징이다. 이를 통해 다단 구성이나 박스형 서식, 표와 캡션 관계 등 공공 문서에서 자주 나타나는 복합 레이아웃에서도 문서 형식이 훼손되거나 추가적인 수작업이 발생하지 않도록 설계됐다.
이번 구축을 통해 범정부 AI 공통기반에서 제공하는 문서 작성 지원, 법령·지침 검색 등 주요 행정·대국민 서비스에 활용되는 행정 문서를 LLM 적용에 적합한 형태로 정제·구조화하는 전처리 체계가 마련됐다.
강지홍 로민 대표는 “범정부 차원의 AI 공통기반 사업에서 로민의 문서 구조화 기술이 실제 행정 현장에 적용돼 의미가 크다”며 “공공 문서를 AI가 바로 활용할 수 있는 데이터로 만드는 전처리 영역에서 기술 경쟁력을 다시 한번 입증했다. 앞으로도 디지털 플랫폼 정부 구현에 기여할 수 있도록 기술 고도화를 지속해 나가겠다”고 말했다.
한편, 로민은 그간 축적해 온 구축 사업 노하우를 집약해 비전언어모델(VLM) 기반 문서 AI SaaS 플랫폼 ‘직시(Zixy)’ 출시를 앞두고 있다. ‘직시’는 시스템 구축 여력이 부족한 중견·중소기업도 클라우드 환경에서 손쉽게 고성능 AI 문서 처리를 이용할 수 있도록 지원할 계획이다.
