본문 바로가기
컴퓨터 관련/Linux || Unix

[Linux|Unix] 리눅스 일본어 인코딩 Shift_JIS 정리

by _BlankSpace 2017. 9. 1.

리눅스를 하다보면 인코딩 작업을 할 떄가 많다. 특히, 다국어를 처리할 때 각각의 나라마다 언어의 인코딩이 필요하다.

오늘은 일본어 인코딩에 대해서 정리하려고 한다.


일본어는 흔히, Shift_JIS 라는 문자 인코딩을 사용한다. 보통, SJIS로 줄여 부른다고 한다.

Shift_JIS 인코딩은 구조는 다음과 같다.

[위키백과 참조]


Shift_JIS는 두 바이트로 한 문자를 구성한다. 때문에, 인코딩 작업을 해본 사람을 겪어봤겠지만, 두 번째 바이트로 인해서 오류가 발생하는 경우가 있다.

그럼 이럴 때, 문제를 어떻게 해결해야 할까.


예를 들어보겠다.


일본어에서 藹 문자는 부호로 E55C이다. 'E5', '5C' 두 바이트로 구성되는 데, 이것은 '\xE5', '\x5C'로도 표현할 수 있다.

따라서 문자열이 제대로 출력이안되는 경우에 위의 바이트에 문제가 있기 때문일수도 있다.


이러한 경우를 초래하는 문자들이 있는데, 다음 표를 참고하길 바란다.


문자 

부호 (16진수) 

 

 815C

 

 835C

 Ы

 845C

 Ⅸ/㎇

 875C

 噂

 895C

 浬

 8A5C

 欺

 8B5C

 圭

 8C5C

 構

 8D5C

 蚕

 8E5C

 十

 8F5C

 申

 905C

 曾

 915C

 箪

 925C

 貼

 935C

 能

 945C

 表

 955C

 暴

 965C

 予

 975C

 禄

 985C

 兔

 995C

 喀

 9A5C

 媾

 9B5C

 彌

 9C5C

 拿

 9D5C

 杤

 9E5C

 歃

 9F5C

 濬

 E05C

 畚

 E15C

 秉

 E25C

 綵

 E35C

 臀

 E45C

 藹

 E55C

 觸

 E65C

 軆

 E75C

 鐔

 E85C

 饅

 E95C

 鷭

 EA5C

 偆

 ED5C

 砡

 EE5C

 纊

 FA5C

 犾

 FB5C


이상으로 글을 마치겠습니다.

제 글이 도움이 되셨다면 공감 버튼 눌러주시면 감사하겠습니다! (광고도 한번 씩 클릭해주시면 저의 블로그 품질이 올라갑니다)



댓글