개발
home
🇰🇷

한글 유니코드 구성 살펴보기

Created
2022/10/31
Tags
Korean
Unicode
한글
유니코드
2022-10-31 @이영훈
한영 타이핑 변환기(github)를 만들면서 한글 유니코드가 어떻게 구성되어 있는 지 공부할 필요가 생겼습니다. 공부한 내용을 기록으로 남깁니다.
한글 유니코드는 크게 3가지로 구성되어 있습니다.
1.
자모음 유니코드 (ᄀ, ᄁ, ᄉ, ᄊ, ᅡ, ᅤ, ᅪ, ᅰ, ᆨ, ᆸ, ᆹ, ᆭ)
2.
자모음 호환 유니코드 (ㄱ, ㄴ, ㄷ, ㄹ, ㅏ, ㅑ, ㅓ, ㅕ, ㄹ, ㅁ, ㄺ, ㅄ)
3.
음절 유니코드 (가, 나, 밤, 힣)

자모음 유니코드

자모음 유니코드는 초성과 중성, 종성으로 이루어진 유니코드 입니다.
아래의 표와 같이 이루어져 있습니다.
같은 기역이더라도 0x1100(ᄀ, 초성)과 0x11A8(ᆨ, 종성)은 다른 글자입니다.

자모음 호환 유니코드

자모음 호환 유니코드는 KS X 1001와 호환되는 유니코드 입니다.
KS X 1001 (구. KS C 5601)은 - 한글과 한자를 상호 변환하기 위한 코드입니다 - 많은 레거시 한글 인코딩에 사용됩니다 (EUC-KR, Microsoft’s Unified Hangul Code (UHC)) - 한글 음절과 CJK 표의문자(한자), 그리스어, 키릴, 일본어 (히라가나, 카타카나) 등을 포함하고 있습니다
자음과 모음으로 구성되어 있습니다.
예를 들면, ㄱ(0x3131) + ㅏ(0x314F) + ㅁ(0x3141) = 감 입니다. 국어시간에 배운 원리랑 동일합니다.

음절 유니코드

음절 유니코드는 현대 한국어의 음절이 유니코드 값으로 매핑된 유니코드 입니다.
이 유니코드 표에 따라서 한국어 음절의 시작은 이고 끝 음절은 입니다.
그래서 정규표현식에서 한글을 찾을 때 /가-힣/ 으로 찾을 수 있었던 것입니다.

Reference