리눅스를 하다보면 인코딩 작업을 할 떄가 많다. 특히, 다국어를 처리할 때 각각의 나라마다 언어의 인코딩이 필요하다.
오늘은 일본어 인코딩에 대해서 정리하려고 한다.
일본어는 흔히, Shift_JIS 라는 문자 인코딩을 사용한다. 보통, SJIS로 줄여 부른다고 한다.
Shift_JIS 인코딩은 구조는 다음과 같다.
[위키백과 참조]
Shift_JIS는 두 바이트로 한 문자를 구성한다. 때문에, 인코딩 작업을 해본 사람을 겪어봤겠지만, 두 번째 바이트로 인해서 오류가 발생하는 경우가 있다.
그럼 이럴 때, 문제를 어떻게 해결해야 할까.
예를 들어보겠다.
일본어에서 藹 문자는 부호로 E55C이다. 'E5', '5C' 두 바이트로 구성되는 데, 이것은 '\xE5', '\x5C'로도 표현할 수 있다.
따라서 문자열이 제대로 출력이안되는 경우에 위의 바이트에 문제가 있기 때문일수도 있다.
이러한 경우를 초래하는 문자들이 있는데, 다음 표를 참고하길 바란다.
문자 |
부호 (16진수) |
815C |
|
835C |
|
845C |
|
Ⅸ/㎇ |
875C |
噂 |
895C |
浬 |
8A5C |
欺 |
8B5C |
圭 |
8C5C |
構 |
8D5C |
蚕 | 8E5C |
十 | 8F5C |
申 | 905C |
曾 | 915C |
箪 | 925C |
貼 | 935C |
能 | 945C |
表 | 955C |
暴 | 965C |
予 | 975C |
禄 | 985C |
兔 | 995C |
喀 | 9A5C |
媾 | 9B5C |
彌 | 9C5C |
拿 | 9D5C |
杤 | 9E5C |
歃 | 9F5C |
濬 | E05C |
畚 | E15C |
秉 | E25C |
綵 | E35C |
臀 | E45C |
藹 | E55C |
觸 | E65C |
軆 | E75C |
鐔 | E85C |
饅 | E95C |
鷭 | EA5C |
偆 | ED5C |
砡 | EE5C |
纊 | FA5C |
犾 | FB5C |
이상으로 글을 마치겠습니다.
제 글이 도움이 되셨다면 공감 버튼 눌러주시면 감사하겠습니다! (광고도 한번 씩 클릭해주시면 저의 블로그 품질이 올라갑니다)
'컴퓨터 관련 > Linux || Unix' 카테고리의 다른 글
[Linux|Unix] 리눅스 vim 코드 위치 기억하기 (1) | 2017.09.25 |
---|---|
[Linux|Unix] 리눅스 lsmod 명령어 정리 (1) | 2017.09.07 |
[Linux|Unix] 리눅스 insmod 명령어 정리 (0) | 2017.08.29 |
[Linux|Unix] ssh 접속시 no matching key 해결 방법 (0) | 2017.08.28 |
[Linux|Unix] 리눅스 error mounting /dev/sdb1 문제 해결 방법 (0) | 2017.08.28 |
댓글