유니코드 (문단 편집)

==== 한자 통합 기준 ====
기본적으로 모양에 차이가 큰 것은 별도의 코드로 분리하고 모양에 차이가 작은 것은 한 코드에 통합한다. 예를 들어 學/学, 經/経/经와 같이 차이가 큰 것은 별도의 코드로 분리됐고, 아래 이미지의 次와 같이 차이가 작은 것은 한 코드에 통합됐다.

>[[파일:attachment/CJK_variant_characters.png|bgcolor=white]]

다만 차이가 작더라도 土와 士, 日과 曰처럼 아예 다른 글자라면 통합하지 않고, 緒/緖, 淸/清과 같이 차이가 작아도 분리된 예외가 몇몇 존재한다.[* 사실 이런 게 생각보다 많다. 분명히 똑같은 차이인데 어떤 경우에는 통합돼 있고(朗) 어떤 경우에는 분리돼 있다(郎/郞). 그래서 뭐가 통합돼 있고 뭐가 분리돼 있는지 일일이 외울 자신이 없다면 그냥 해당 언어 입력기로 치는 게 속 편하다.] 원칙적으로 者의 점의 유무와 靑/青의 차이는 인정하지 않고 통합된다.

[[중국어]] [[간체자]]와 [[번체자]]는 유니코드에서 다른 글자로 본다(예: 紅(U+7D05)/红(U+7EA2), 語(U+8A9E)/语(U+8BED)). 간체자와 번체자를 한 코드에 통합할 수 없는 데에는 여러 가지 이유가 있다. 일단 간체자와 번체자가 언제나 일대일로 대응되는 게 아니고(发, 干 등만 해도 두세 글자를 하나로 합친 것이다), [[중국 대륙]]에서도 번체자의 사용을 '금지'한 게 아니며, [[일본어]]에서 간체자와 번체자와 같은 모양의 [[신자체]]와 [[구자체]](예: 国-國 등)를 고유 명사 등에서 구별해서 쓰는 경우가 있기 때문이다.

그리고 유니코드에 간체자와 번체자가 반드시 동시에 추가되지는 않기 때문에, 간체자가 먼저 추가되고 나중에 그에 대응하는 번체자가 추가되거나 그 반대의 경우가 생기기도 한다. 예를 들어 간체자 䢂(U+4882)은 그에 대응하는 번체자 [[𨋢]](U+282E2)보다 유니코드에 먼저 추가됐다.

[[구글]]이나 [[바이두]] 등의 검색 엔진에서는 간체자로 검색해도 간체자와 함께 번체자 검색 결과가 걸리고 번체자로 검색해도 번체자와 함께 간체자 검색 결과가 걸리는데, 이는 검색 엔진 내부에 간체자와 번체자를 짝지어 놓은 테이블이 있기 때문에 가능한 것이다. 간체자와 번체자를 같은 글자로 인식하게 만드는 건 별도의 테이블 없이는 불가능하다.

구글이나 바이두 등에서도 유니코드에 나중에 추가된 간체자나 번체자는 같은 글자로 처리하지 못하기도 한다. 간체자-번체자 대응 테이블을 일일이 수동으로 업데이트해 줘야 하는데, 이게 상당히 번거롭기 때문에 보통은 업데이트를 안 한다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

유니코드 (문단 편집)

캡챠