안경잡이개발자

728x90
반응형

● 문자 표현

 

 우리는 컴퓨터를 사용할 때 한글, 영문자, 숫자, 특수문자 등 다양한 문자를 사용해야만 합니다. 하지만 이렇게 다양하고 많은 문자들을 도대체 어떻게 컴퓨터로 나타내는 것일까요? 그것은 다양한 문자를 구별하기 위한 특정한 코드 체계가 있기에 가능한 것입니다. 저번 강좌에서 말했듯이 A는 65(10)으로 나타내고, 10은 그대로 10(10)으로 나타내는 식의 코드 체계가 있다면 손쉽게 구현이 가능하겠죠. 우리가 가장 많이 알고 있는 것은 아스키 코드(ASCII​ Code), 유니코드(Unicode) 등이 있겠습니다. 사실 이 두 가지 정도만 알아도 문자 표현에 대해서 전반적으로 알고 있는 것이죠.

 

 1. 아스키 코드

 미국표준협회(ANSI)에서 정의한 것으로 표준 코드입니다. 각 문자를 나타내는 7비트(128개의 문자가 저장 가능)와 오류 검사 비트 1개를 붙여서 총 8비트로 구성합니다. 오류 검사 코드는 패리티 비트라고 합니다. 아스키 코드 중 앞 3비트는 존 비트, 뒤 4비트는​ 디지트 비트라고 하는데 여기까지는 몰라도 됩니다. 아스키 코드에서 0~31번과 127번은 제어 문자, 32~64번은 특수 문자와 숫자, 65~96번은 알파벳 대문자와 특수문자, 97~126번은 알파벳 소문자와 특수문자를 나타내고 있습니다.

 이 외에도 2진화 10진 코드(BCD부터 확장 2진화 10진 코드까지 다양한 코드가 존재합니다. 하지만 사실상 아스키 코드만 알면 더이상 알지 않아도 코드 체계는 다 안다고 봐도 됩니다.

2. 유니코드

 

 유니코드는 전 세계의 모든 언어를 일관성 있게 표현할 수 있도록 만든 국제적 단위의 문자 코드 체계가 되겠습니다. 컴퓨터 간 데이터 교환이 원활할 수 있도록 각각의 문자마다 16비트를 부여합니다. 물론 16비트 이상으로 정의한 것 도 있지만 기본적으로 16비트라고 생각하시면 됩니다. 문자를 최대 65,536(2^16)개 까지 표현할 수 있기 때문에 사실상 모든 문자를 표현할 수 있게 된 것이죠. 최근에는 2015년 6월에 나온 유니코드 8.0부터 시작해 나나일 더욱 향상된 버전을 보여주고 있습니다.

 

 한글 유니코드는 http://www.unicode.org/charts/PDF/UAC00.pdf에서 확인할 수 있습니다. 우리나라 한글 '가'가 유니코드로 AC00로 시작한다는 것 정도는 상식으로 알아두세요.

 

 

728x90
반응형