정보실

정보실

기타 유니코드 패키지 및 리소스 목록

본문

유니코드는 대단합니다! 유니코드 이전에는 국제 통신이 힘들었습니다.  유니코드 표준이 잡히고 통합 커뮤니케이션이 가능합니다.

Unicode 8.0은 129 개 이상의 스크립트에서 120,000 개 이상의 문자를 표준화 합니다. 일부는 현대, 일부는 고대 및 일부는 아직 해독 되지 않았습니다.

유니 코드는 왼쪽에서 오른쪽 및 오른쪽에서 왼쪽으로 쓰는 텍스트를 처리하고 표시를 결합하며 다양한 문화적, 정치적, 종교적 특성과 이모티콘을 포함합니다.


유니코드 배경 

-, 유니 코드 표준에는 어떤 문자가 포함됩니까? 

유니코드 표준은 오늘날 작성된 모든 주요 언어에서 사용되는 문자에 대한 코드를 정의합니다. 스크립트에는 유럽어 알파벳 스크립트, 중동에서 오른쪽에서 왼쪽으로 쓰는 스크립트 및 아시아의 많은 스크립트가 포함되어 있습니다.


유니코드 표준에는 구두점, 발음 구별 기호, 수학 기호, 기술 기호, 화살표, 딩벳, 이모티콘 등이 추가로 포함되어 있습니다. 발음 기호 (예 : ñ)를 나타 내기 위해 기본 문자와 함께 사용되는 물결 기호 (~)와 같은 문자 기호를 수정하는 발음 구별 기호를 제공합니다. 유니코드 표준 버전 9.0은 세계의 알파벳, 표의 문자 집합 및 기호 모음에서 128,172 자의 코드를 제공합니다.


-, 유니코드 문자 인코딩 

문자 인코딩 표준은 각 문자와 그 숫자 값 또는 코드 포인트의 신원을 정의 할 뿐만 아니라 이 값이 비트 단위로 어떻게 표현되는지 정의합니다.

유니코드 표준은 바이트, 단어 또는 더블 워드 지향 형식(즉, 코드 단위당 8, 16 또는 32 비트로)으로 동일한 데이터를 전송할 수 있는 세 가지 인코딩 양식을 정의합니다. 세 가지 인코딩 형식 모두 동일한 공통 문자 레퍼토리를 인코딩하며 데이터 손실 없이 효율적으로 서로 변환 할 수 있습니다. 유니코드 컨소시엄은 이러한 인코딩 형식을 유니코드 표준을 구현하는 데 적합한 방식으로 사용하는 것을 전적으로 지지합니다.


UTF-8은 HTML 및 유사한 프로토콜에 널리 사용됩니다. UTF-8은 모든 유니코드 문자를 가변 길이의 바이트 인코딩으로 변환하는 방법입니다. 익숙한 ASCII 세트에 해당하는 유니코드 문자는 ASCII와 동일한 바이트 값을 가지며 UTF-8로 변환 된 유니코드 문자는 광범위한 소프트웨어 재 작성 없이 많은 기존 소프트웨어와 함께 사용할 수 있다는 이점이 있습니다.

 

UTF-16은 경제적인 스토리지 사용으로 문자에 효율적으로 액세스 해야 하는 많은 환경에서 널리 사용됩니다. 합리적으로 작고 사용 빈도가 높은 모든 문자는 단일 16 비트 코드 단위에 들어가는 반면 다른 모든 문자는 16 비트 코드 단위 쌍을 통해 액세스 할 수 있습니다.


UTF-32는 메모리 공간이 문제가 되지 않지만 문자에 대한 고정 폭, 단일 코드 단위 액세스가 필요한 경우에 유용합니다.

각 유니코드 문자는 UTF-32를 사용할 때 단일 32 비트 코드 단위로 인코딩됩니다.


세 가지 인코딩 형식 모두 각 문자에 대해 최대 4 바이트 (또는 32 비트)의 데이터가 필요합니다.

유니 코드 문자 집합은 "planes"이라는 17 개의 코어 세그먼트로 나뉘며,이 세그먼트는 블록으로 더 나뉩니다.

각 plane에는 65,536 (216) 코드 포인트를 위한 공간이 있어 총 1,114,112 코드 포인트를 지원합니다.


#NameRange
1.Basic Multilingual Plane(U+0000 to U+FFFF)
2.Supplementary Multilingual Plane(U+10000 to U+1FFFF)
3.Supplementary Ideographic Plane(U+20000 to U+2FFFF)
4.Tertiary Ideographic Plane(U+30000 to U+3FFFF)
5.Plane 5 (unassigned)(U+40000 to U+4FFFF)
6.Plane 6 (unassigned)(U+50000 to U+5FFFF)
7.Plane 7 (unassigned)(U+60000 to U+6FFFF)
8.Plane 8 (unassigned)(U+70000 to U+7FFFF)
9.Plane 9 (unassigned)(U+80000 to U+8FFFF)
10.Plane 10 (unassigned)(U+90000 to U+9FFFF)
11.Plane 11 (unassigned)(U+A0000 to U+AFFFF)
12.Plane 12 (unassigned)(U+B0000 to U+BFFFF)
13.Plane 13 (unassigned)(U+C0000 to U+CFFFF)
14.Plane 14 (unassigned)(U+D0000 to U+DFFFF)
15.Supplementary Special-purpose Plane(U+E0000 to U+EFFFF)
16.Supplementary Private Use Area - A(U+F0000 to U+FFFFF)
17.Supplementary Private Use Area - B


패키지 및 라이브러리 

https://github.com/jagracey/PhantomScript

https://github.com/mathiasbynens/esrever  JavaScript로 작성된 유니코드 인식 문자열 역방향 변환기입니다.

https://github.com/reinderien/mimic

https://github.com/LuminosoInsight/python-ftfy

https://github.com/vim-utils/vim-troll-stopper


Emojis 

http://www.unicode.org/emoji/charts/full-emoji-list.html

http://emojipedia.org/

http://emojitracker.com/

http://www.emojifoundation.com/

http://caniemoji.com/android-2/

http://www.name.com/blog/how-tos/2015/12/want-an-emoji-url-this-is-how-you-register-one/


유니코드 글꼴 

https://en.wikipedia.org/wiki/Unicode_font#List_of_Unicode_fonts

http://www.unifont.org/fontguide/


더 깊은 유니코드로 탐험하기 

http://shapecatcher.com/

http://unicode.org/cldr/utility/confusables.jsp?r=None

http://www.unicode.org/ucd/

https://dumps.codepoints.net/

http://www.unicode.org/Public/UCD/latest/ucd/Blocks.txt

http://www.unicode.org/charts/index.html

http://www.unicode.org/charts/case/

http://www.unicode.org/charts/normalization/

http://www.unicode.org/faq/


A map of the Basic Multilingual Plane. Each numbered box represents 256 code points. 








  • 트위터로 보내기
  • 페이스북으로 보내기
  • 구글플러스로 보내기
  • 카카오톡으로 보내기

페이지 정보

조회 3회 ]  작성일19-02-09 18:30