OCR (문단 편집)

== 언어별 인식도 ==
언어와 문자별로 은근히 인식도 차이가 있다. 그냥 한 줄로 쭉 쓰는 [[영어]] 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식율이 매우 뛰어나다. 어지간한 영어 로마자 문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨 쓴 필기체의 인식도도 뛰어난 편이다.

반면 [[한글]], [[한자]]같은 문자는 모양이 복잡하기도 하고 연구 투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수 문자로 변환되는 건 아주 흔하다. 또한 [[닮은꼴 문자|모양이 비슷한 글자가 있어서]] 결과물이 [[야민정음]]으로 나오는 경우도 있다. 특히 '[[관]]'을 '[[판]]'으로 인식하는 오류가 가장 심해서, '''"-에 판하여"'''로 검색하면 논문이 줄줄이 나온다.([[https://www.google.com/search?q=%EC%97%90+%ED%8C%90%ED%95%98%EC%97%AC&nfpr=1&sa=X&ved=2ahUKEwi8tZ206JvqAhWYBIgKHfDiAyMQvgUoAXoECA0QKQ&biw=1920&bih=920|구글 검색 결과]]) 실생활에 쓰이는 문서(이력서나 공문서)가 소설 책같이 글자만 있는 것은 아니므로 안 그래도 떨어지는 인식율이 바닥을 달린다. 특히 표나 그림이 들어간 문서는 인식율이 최악이다. 한국의 오래된 행정 문서들이 수백 년 역사를 가진 미국보다 느리게 디지털화되고 있는 이유이기도 하다.

같은 [[한자]]라도, 비영어권 문자라도 [[일본어]]처럼 [[히라가나]], [[가타카나]]가 섞인 문면은 [[한글]]에 비해 훨씬 인식율이 높은 편이다. 글자 모양이 로마자만큼이나 단순한 데다 정형화되어 있어서 활자본 글자는 90% 이상 인식이 된다. [[そ|ソ]](so)와 [[ん|ン]](n), [[し|シ]](shi)와 [[つ|ツ]](tsu) 정도만 빼면 웬만한 것들은 정확하다. [[일본]]이 일본어 문헌을 [[컴퓨터]]로 표현하는 것을 연구한 역사는 꽤 유구했기도 해서 '''영어를 제외하면 일본어의 OCR 인식율이 가장 좋다.'''--그런데 결재 서류를 아직까지 종이 문서로-- ソ와 ン, シ와 ツ를 문맥으로 자연스럽게 구분하기 위한 연구도 활발하다.

예전에 비해 인식율이 많이 올라간 상황이나 100% 믿지는 않는 것이 좋다. 원본 이미지는 보관하도록 하자.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

OCR (문단 편집)

캡챠