인공지능(AI) 기반으로 이미지나 한글·MS오피스·PDF 등 다양한 문서에서 문자 정보를 추출해내는 기능을 제공하는 OCR(광학문자인식) 솔루션 시장이 급부상하고 있다.
네이버클라우드는 OCR 사업 강화를 위해 지난달 AI 기반의 특화 모델을 선보였으며, 사이냅소프트·엘세븐시큐리티도 AI OCR 솔루션 라인업을 선보이고 제품 영업을 강화하고 있다. 또 이스트소프트도 '알PDF' 무료 버전에 OCR 기능을 제공해 이용자 확대에 나서고 있다.
최근 대기업, 금융권 등이 디지털 전환을 통해 업무를 효율화하기 위해 RPA(로봇프로세스자동화)를 도입하고 있는데, RPA는 영수증이나 고객정보 입력 등 단순한 작업을 대신해주는 역할을 한다. 이 때 OCR이 영수증이나 재무제표, 명함 정보들을 정확하게 읽어주면 높은 수준의 업무 자동화를 이룰 수 있어, 최근 OCR 솔루션의 활용 분야가 다양화되고 비즈니스 현장에서 핵심 기술로 자리잡는 추세다. 특히, 업무의 정확도가 떨어지면 결국 사람의 손을 거쳐야 해 정확도를 높이는 것이 가장 중요해, AI 기술 도입이 필수적인 요소로 부각되고 있다.
네이버클라우드는 비정형 업무 문서에서 사용자가 원하는 정보만 추출하는 AI 기반의 '클로바 다큐먼트 OCR' 특화 서비스를 최근 선보였다. 이 서비스는 클로바 AI 자연어처리기술(NLP) 기술을 적용해 비정형 문서들을 선행 학습시키면 문서에서 상호, 지점병, 사업자번호 등 주요 정보를 추출해주고 항목별 분류도 자동으로 해준다.
네이버클라우드 관계자는 "기존에는 영수증, 의료비 영수증, 사업등록증의 경우, 발급 기관마다 형태가 달라 사용자가 희망하는 정보를 자동 추출하는 것이 쉽지 않았다"며 "클로바 다큐먼트 OCR을 통해 인식된 문서에서 정보 연결 관계를 파악해, 텍스트와 숫자 값이 의미하는 바를 정확하게 찾아낼 수 있다"고 설명했다.
또 위·변조 방지 기술이 적용돼 OCR 기술 적용이 까다로웠던 분야에까지 문서 인식이 가능하고, 구겨지거나 오염된 서류에서 추출된 텍스트를 AI 기술로 항목별로 자동 기입이 가능해졌다. 특히 명함, 신용카드는 다양한 디자인으로 출시되고, 영문, 한자, 기호 등 여러 활자가 인쇄돼 있음에도, 필요한 값을 정확히 추출할 수 있다. 이 기술은 이미 네이버웍스에도 활용되고 있으며, 신용카드·주민등록증 등 민감정보와 개인정보는 보안이 필수이기 때문에 보안아키텍처도 마련했다.
사이냅소프트는 자체 개발한 알고리즘을 탑재한 AI 딥러닝 기반의 '사이냅 OCR'을 선보였으며, 최근 제품을 고도화해 OCR의 인식률이 개선되는 성과를 거뒀다. 기존의 제품에서는 인식률이 낮았던 금액의 단위 구분자, 한글 세로쓰기, 앞뒤 공백이 포함된 텍스트의 인식률을 이미지 전처리 기술과 지속적인 딥러닝 학습을 통해 크게 높인 것.
사이냅소프트 관계자는 "주민등록초본이나 등본에서 주소, 날짜 등을 영역별 템플릿을 맞춰서 쉽게 추출할 수 있다"며 "특히, RPA에서 필수적으로 요구하는 영수증, 재무제표의 숫자 인식에 탁월한 성능을 보여, 기업이 RPA 구축시 OCR을 통해 업무 효율성을 크게 높일 수 있다"고 설명했다,
기존의 OCR 필터의 경우, 텍스트는 잘 읽어내지만, 문서에 포함된 이미지에 담긴 텍스트를 뽑아내는 데 한계가 있었는데, 정확도가 높은 이미지의 텍스트 추출 기능으로 기관, 기업에서 문의가 증가하고 있다.
엘세븐시큐리티는 AI 기반의 OCR이 탑재돼 이미지에서 문자를 정확하게 뽑아내는 '다큐 OCR 솔루션(이미지 전자문서화) 솔루션을 최근 개최된 국제인공지능대전에서 선보이는 등 OCR 제품 영업을 본격화하고 있다.
'다큐OCR 솔루션'은 이미지 파일이나 문서 내 이미지에서 문자를 추출할 수 있으며, 자주 사용하는 문서나 이미지 파일 양식을 머신러닝을 통해 인식하고, 인식한 문서에서 특정 부분만을 추출해 DB(데이터베이스화)해 관리하도록 도와준다. AI 기술을 활용해 이미지에서 문자를 좀 더 정확하게 인식하기 위해 다양한 전처리 알고리즘이 적용됐다.
이 회사는 또 '이미지OCR 및 OCR 필터링 v2.0'을 보유하고 있는데, 이 제품은 이미지 속 문자를 추출할 뿐 아니라 추출된 문자에 대한 개인정보 패턴을 매칭시킨다. 홈페이지 게시판을 통한 개인정보 유출 차단은 물론, 이미지OCR을 이용해 타사 보안솔루션과도 연동돼 이미지 속 문자나 텍스트에 대해 개인정보를 탐지해 차단하는 역할을 한다.이 솔루션은 이미 전남도청, 전남교육청, 광주광역시 교육연구정보원, 서울성북구청, 장흥군청 등에 공급됐다.
이스트소프트도 '알PDF'의 OCR 기능을 무료 버전에서도 제공하면서 OCR 보급을 확대하고 있다.
알PDF에서 OCR 기능은 고가의 유료 PDF 편집 프로그램에서 지원하던 기능이지만, 무료 버전을 통해 제공하는 것. 이에 따라 알PDF 사용자는 별도로 제공하는 문자 인식 플러그인을 설치해 이미지로 스캔된 PDF 문서를 편집 가능한 파일로 변경해 자유롭게 수정할 수 있다.
#OCR #RPA #디지털전환 #업무자동화 #이미지내문자추출 #네이버클라우드
Copyright ⓒ Metro. All rights reserved. (주)메트로미디어의 모든 기사 또는 컨텐츠에 대한 무단 전재ㆍ복사ㆍ배포를 금합니다.
주식회사 메트로미디어 · 서울특별시 종로구 자하문로17길 18 ㅣ Tel : 02. 721. 9800 / Fax : 02. 730. 2882
문의메일 : webmaster@metroseoul.co.kr ㅣ 대표이사 · 발행인 · 편집인 : 이장규 ㅣ 신문사업 등록번호 : 서울, 가00206
인터넷신문 등록번호 : 서울, 아02546 ㅣ 등록일 : 2013년 3월 20일 ㅣ 제호 : 메트로신문
사업자등록번호 : 242-88-00131 ISSN : 2635-9219 ㅣ 청소년 보호책임자 및 고충처리인 : 안대성