6 Aralık 2015 Pazar

ASCII? Unicode 8-16? UTF 8?

Merhabalar,
Bugün sizlere değişik bir takım şeylerden bahsedeyim.
Nedir bu değişik şeyler derseniz;

*Ascii Kod
* Unicode 8,16 
*Utf 8

Tabiki yine eskilere gideceğiz, meraklandığınızı hisseder gibiyim öyleyse 
hemen başlayayım :) 

ASCII KOD


American Standard Code for Information Interchange  
---
Bilgi Değişimi İçin Amerikan Standart Kodlama Sistemi
Latin alfabesi üzerine kurulu 7 bitlik bir karakter kümesidir. İlk kez 1963 yılında ANSI tarafından standart olarak sunulmuştur.
ASCII'de 33 tane basılmayan kontrol karakteri ve 95 tane basılan karakter bulunur. Kontrol karakterleri metnin akışını kontrol eden, ekranda çıkmayan karakterlerdir. Basılan karakterler ise ekranda görünen, okuduğumuz metni oluşturan karakterlerdir. 

UNICODE 8,16

 Unicode Consortium organizasyonu tarafından geliştirilmiştir. Ve her karaktere bir sayı değeri karşılığı atar. Unicode, son sürümü itibarıyla 129 farklı modern ve tarihi yazım sistemine ait 120.000'den fazla karakteri ve emoji gibi çeşitli sembol kümelerini kapsıyor. 
Haziran 2015 tarihi itibarıyla standardın en son sürümü olan Unicode 8.0 ile birlikte 7.716 yeni karakter eklemesi yapılmış.
Unicode kodlarından oluşan karakter dizilerini bilgisayarda verimli bir biçimde saklayabilmek amacıyla çeşitli karakter kodlamaları geliştirilmiştir. Bunlardan en bilinenleri UTF-8UTF-16 ve artık kullanımdan kalkmış olan UCS-2'dir.
Unicode aslında Ascii'nin devamıdır diyebiliriz. Bkz: Farklı kod sayfaları arasında karışıklığa yol açması bir yana içinde binlerce farklı karakter barındıran Çince veya Japonca gibi dillerin harfleri için fazladan gelen 128 karakterlik kapasitenin de yeterli olması olanaksızdır. Bu yüzden ASCII sistemi yerini Unicode'a bırakmış.

UTF 8

 8-bitlik bir Unicode dönüşüm biçimidir. Rob Pike ve Ken Thompson tarafından geliştirilen bu döünüşüm biçimi, Unicode karakterlerini değişken sayıda 8 bitten oluşan bayt  gruplarıyla kodlamakta kullanılır. 



Yani, UTF-8 kodlaması Unicode karakterlerini 1-6 bayt uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler, Unicode standardında aynı kod noktalarıyla ifade edildiğinden aynen kendi kodları ile kullanılır, diğerleri ise bayt dizileri haline gelir.







Hiç yorum yok:

Yorum Gönder