유니코드 (문단 편집)

==== 한글 전산화 ====
대한민국의 한국어 컴퓨터 환경에서는 유니코드가 도입되기 전에는 주로 2바이트 [[완성형]](KS C 5601-1987, [[조합형]]을 복수 표준으로 만든 KS C 5601-1992와 다른 한글 코드 표준들과 통합하고 2004년에 개정되면서 KS X 1001:2004로 개칭됨)이라는 코드와 이에 기반한 EUC-KR 인코딩을 사용하였다. 그러나 완성형의 한글 글자 수는 2,350자로, 현대 한글이 표현할 수 있는 글자 중 빈도가 높은 일부분만 수록되어 있는 상태였다. 이것 때문에 똠을 [[홍길동전|똠이라 쓰지 못하는]] 일이 있기도 했다[* 당시 완성형을 비판하기 위해 주로 거론된 매체는 드라마 [[똠방각하]]였고, 흔히 "'''똠'''방각하 전'''홥'''니다" 라는 문장으로 표현했다. 좀 더 나가면 "'''찦'''차를 타고 온 '''펲'''시맨과 '''쑛'''다리 '''똠'''방각하" 같은 문장도 있었지만 이건 완성형을 까기 위해 만든 문장이라는 티가 너무 나서 [[한글과컴퓨터|한컴]]의 [[아래아한글]] 광고멘트인 "비행기가 날아갑니다. '''쓩'''~" 을 사용하는 경우도 있었다. 어쨌건 자세한 사항은 조합형 완성형 논쟁 항목 참고.]. 이를 해결한 CP949/UHC(통합 완성형)라는 코드도 있는데 완성형에 없는 글자를 억지로 구겨 넣었기 때문에 코드가 자모 순으로 구성되지 않을 뿐만 아니라 코드 표준에 맞지 않게 구현한 프로그램이 많아서 자잘한 문제가 많았다. 사실 [[한글 채움 문자]]를 쓰면 되겠지만 불편해서 잘 쓰이진 않았다.

유니코드는 1991년 발표된 1.0 버전부터 KS C 5601에 포함된 완성형 2,350자 한글을 지원하였다. 1993년 발표된 1.1 버전에는 KS C 5657(이후 KS X 1002)에 포함된 1,930자 및 중국에서 요청한 6글자를 포함한 2,376자를 추가해 총 6,656자가 수록되었다.[* 기존 2,350자를 그대로 두고 다른 위치에 한글을 더 추가했기 때문에 [[CP949]]의 경우와 마찬가지로 코드로는 가나다순 정렬을 할 수 없는 문제가 있었다.] 믿기 어렵겠지만 유니코드 1.1에는 옛한글까지 고려한 [[조합형]] 한글 낱자도 포함되어 있었고(U+1100 - U+11FF) 실제로 이걸로 넘어가자는 제안도 있었다.[* 출처: 단일문자 표준 연구, 한국전산원, 1993년 6월.] 그러나 당시 한국에서는 2,350자를 벗어난 현대 한글을 사용하려면 그냥 조합형을 사용하면 되었기 때문에 이렇게 추가된 6,656자만으로는 유니코드 기반 완성형을 사용할 이유가 없었다. 조합형이라고 해서 상황이 나은 것도 아닌게 첫가끝 기반 조합형은 90년대 초반까지 한국에서 사용한 조합형과는 달랐고, 지금도 OS X과 윈도우 사이에서 파일을 복사할 때 자주 글자가 풀려 버리는 등 이걸 제대로 지원하는 플랫폼은 흔치 않다. 완성형 한글도 한 번에 일괄적으로 추가되지 않았고 빠진 글자들이 단계별로 추가되었기 때문에 배열 순서가 CP949/UHC보다도 개판이었고 나머지 4,516자를 추가하려고 해도 제대로 추가할 수가 없었다. 한편 유니코드 1.1을 지원했다가 한국에서 한동안 피를 본 프로그램 중 하나가 [[오라클 DB]]이었다. 자세한 사항은 [[오라클(기업)#s-1]] 개요를 참고할 것.

그래서 대한민국 대표는 유니코드 2.0 제정 시 완성형 현대 한글 11,172자를 가나다순으로 새 영역에 배당할 것을 요청했다. 한국 대표는 유니코드의 한글 배당을 바꿔달라고 주장하면서, 당시까지 유니코드를 사용하는 한글 소프트웨어가 사실상 거의 존재하지 않아서 호환성에 문제가 없다고 주장했다. 또한 그렇게 쓰는 소프트웨어가 없는 이유 중 하나가 완성형을 기반으로 한 유니코드의 문제 때문이기도 했으며, 이는 한국이 유니코드에서 벗어나서 별도의 표준을 사용하게 되는 사태를 일으킬 수도 있었다.

이 요청에 대해 각국 대표들 사이에서 논쟁이 오갔지만, 결국 대한민국 대표의 요청이 받아들여져서 1996년 발표된 유니코드 2.0에서 1.1 때까지 U+3400 ~ U+4DFF[* 참고로 현재 이 부분에는 [[한자]]와 [[주역]] 64괘 (Yijing Hexagram Symbols)가 들어 있다.]에 배당되어 있던 한글 6,656자를 없애고 새 영역(U+AC00 ~ U+D7A3)에 가나다순으로 11,172자를 배당했다. 이렇게 배당된 11,172자가 2.0부터 현재까지 한글·한국어 처리에 쓰이고 있다. 이로 인해 유니코드 2.0 이상과 그 이전 버전은 서로 호환되지 않는다. 그리고 이 '한글 대이동 사건'을 계기로 2.0부터는 한 번 배당한 문자는 절대 옮기거나 없애지 않는다는 정책을 세웠다.

당연하게도 이 11,172자는 남한의 가나다순으로 배당되었다. 남한과 북한은 한글 낱자의 정렬 순서가 다른데[* 남한은 광복 이전부터 쓰던 것을 그대로 쓰고 있지만, 북한은 자체적으로 순서를 새로 짰다. 굳이 정통을 따지자면 남한이 정통인 셈. 북한 문화어의 한글 정렬 순서는 [[정렬/순서]] 문서의 '북한 문화어' 부분을 참고할 것.], [[북한]]이 이것을 문제 삼아 이 11,172자를 북한식으로 재배열해 줄 것을 2000년경에 요구했으나, 이미 한글은 코드 위치가 한 번 대이동한 전례도 있고 문자를 절대 옮기거나 없애지 않는다는 정책에도 위배되기 때문에 보기 좋게 씹혔다. 그리고 북한은 코드 순으로 정렬하면 북한식으로 제대로 정렬이 되지 않는다는 것을 문제 삼았는데, 단순 코드 순 정렬은 어차피 그 어떤 언어에서도 적절하지 않으며, 정렬은 따로 테이블을 만들거나 알고리즘을 짜서 해야 한다. [[영어]]조차도 코드 순으로 정렬하면 대문자 Z가 소문자 a보다 앞에 온다. 물론 코드에서 이미 정렬이 되어 있으면 정렬 테이블 및 알고리즘 제작이 쉬워지고 받침에 따라 바뀌는 [[조사(품사)|조사]] 붙이기가 용이해진다는 장점은 있다. 과거 확장완성형이나 유니코드 1.1이 문제가 됐던 것도 배열 순서가 너무 심하게 뒤죽박죽이었기 때문이다.

그래서 한때 북한에서는 자기네들 순서를 기준으로 한글 영역을 쓴 적이 있었다. [[남북한 한글 코드의 충돌 문제]] 문서 참고. 지금 북한은 울며 겨자 먹기로 남한 순으로 배당된 11,172자를 쓰고 있다.

[[북한]]은 이것만이 아니라 자기들이 우상화 목적으로 국규 9566에 배당한 ''''[[김일성|김, 일, 성]]''', '''[[김정일|김, 정, 일]]''''도 그대로 유니코드에 넣고자 했으나 퇴짜 맞았다.[* 그러나 일본의 경우 [[Shift-JIS]]에 포함된 [[메이지 시대]] 이후의 연호가 그대로 유니코드에 등록되었다.] 그래서 북한에서 만들어진 폰트에서는 볼드 처리한 '''김, 일, 성, 김, 정, 일, [[김정은|김, 정, 은]]'''[* 이 역시 일본의 경우 김정은과 달리 [[레이와 시대]]에 새로운 문자가 추가되었다.]을 [[PUA]] 코드에 할당하기도 하며, 북한제 [[운영체제]]의 입력기에서도 이걸 감안하여 김일성, 김정일, 김정은 이름을 쓰면 자동으로 PUA 내 볼드 처리된 글자로 변환한다고 한다. [[PUA]], [[문화어]] 문서 참조.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

유니코드 (문단 편집)

캡챠